- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
Fleet: Optimizing LLM Inference on Chiplet GPUs
In this AI Research Roundup episode, Alex discusses the paper: 'Fleet: Hierarchical Task-based Abstraction for Megakernels on Multi-Die GPUs' Fleet introduces a new multi-level task model designed specifically for modern chiplet-based GPUs. By mapping computation directly to memory scopes, it resolves the mismatch between flat programming models and hierarchical hardware. The core innovation is the Chiplet-task abstraction, which coordinates work through shared L2 caches to reduce redundant memory traffic. When tested on AMD Instinct MI350 hardware with Qwen3-8B, it significantly reduced decode latency compared to vLLM. This approach improves cache utilization and performance for memory-bound workloads like LLM inference. Paper URL: https://arxiv.org/pdf/2604.15379 #AI #MachineLearning #DeepLearning #LLMInference #GPUArchitecture #Chiplets #AMDInstinct #ParallelComputing
Видео Fleet: Optimizing LLM Inference on Chiplet GPUs канала AI Research Roundup
Видео Fleet: Optimizing LLM Inference on Chiplet GPUs канала AI Research Roundup
Комментарии отсутствуют
Информация о видео
21 апреля 2026 г. 6:18:01
00:04:37
Другие видео канала




















