LLM Inside: выжимаем максимум из decoder attention на GPU / Андрей Шукшов

На конференции «Я про бэкенд» Андрей Шукшов, старший разработчик в команде оптимизаций инференса Яндекс R&D, рассказал, как выжать максимум из decoder attention на GPU. Он разобрал архитектуру современных графических процессоров и объяснил, как добиться максимальной производительности при реализации ключевого примитива LLM: механизма внимания в декодере.

Доклад будет особенно полезен разработчикам, которые уже работали с CUDA и хотят глубже понять устройство GPU и внутренние процессы больших языковых моделей.

Больше полезных материалов про бэкенд: https://t.me/+aN8Rc-4YJtVlZWZi
#япробэкенд #яндекс #backend #бэкенд #архитектура #highload #инфраструктура #ml #ai #llm #yandextech #разработка #инженерия #devops #ydb #автотранспорт #алиса #рекомендации

Видео LLM Inside: выжимаем максимум из decoder attention на GPU / Андрей Шукшов канала Yandex for Backend

Комментарии отсутствуют

Информация о видео

18 октября 2025 г. 16:01:08

00:31:32

Yandex for Backend

Теги

Правообладателям

Жалоба на материал Недопустимый материал Нарушение авторских прав

Комментарии

Другие видео канала

LLM Inside: выжимаем максимум из decoder attention на GPU / Андрей Шукшов

Царь-дашборд: как построить дашборд всей платформы Такси / Леша Королев, Яндекс Go

Платформенные решения: каким командам они нужны?

Встреча РГ21 С++ | декабрь 2025

Как ускорять старт приложения и загрузку главной страницы / Гадель Закиров и Назар Старанцов

История развития цикла заказа в Яндекс Лавке / Миша Абакумов, Яндекс Лавка

Микросервис обработки геометрических данных / Александр Жуков

Oб особенностях работы сервисов-справочников в контентной системе | Александр Васин #shorts #yandex

Continuous Modernization | Андрей Зарубин, Райффайзен Банк

Как мы создаём высокоточные карты / Дмитрий Плещеев

Tool calling в диалоговой системе Алисы / Роман Жиганов

Как мы запустили Яндекс Самокаты в 100 городах, не размещая в них свои самокаты / Рома Детинин

Как оживить километры конвейерного оборудования за полгода | Андрей Моисеев и Степан Фомичев, Яндекс

Как мы обрабатываем сотни тысяч RPS в брокере сообщений на MongoDB / Леша Иванов

Для чего использовать BDUI при интеграции сервисов / Вадим Белотицкий, Яндекс Go

Как готовить свой код к виртуальным потокам / Олег Естехин, Yandex Cloud

Эволюция технологий реалтайм-индексации / Никита Сикалов

Road to Highload. Серия 4. Практика: Рост баз данных: от единиц запросов к тысячам

Встреча РГ21 C++

Консистентность данных в продукте / Боря Галочкин

Performance Puzzlers / Сергей Слотин