- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
Multi-Head Attention — Many Sets of Eyes, Explained | datarekha
One attention pass learns one kind of relationship, but language has many at once. Run attention many times in parallel — each head with its own query/key/value matrices, projecting into a different subspace to look for a different thing (grammar, meaning, long-range links). Concatenate every head's blend and mix with one learned matrix. That diversity is much of why transformers are so powerful. Chapter 61 of the full "ML & DL from scratch, with the math" course (watch the complete ~2h09m film, with all chapters & timestamps in its pinned comment). More at datarekha.com. Narration uses a synthetic AI voice.
Related free lessons on datarekha.com:
- Multi-head attention: https://datarekha.com/deep-learning/multi-head
Видео Multi-Head Attention — Many Sets of Eyes, Explained | datarekha канала datarekha
Related free lessons on datarekha.com:
- Multi-head attention: https://datarekha.com/deep-learning/multi-head
Видео Multi-Head Attention — Many Sets of Eyes, Explained | datarekha канала datarekha
Комментарии отсутствуют
Информация о видео
15 ч. 10 мин. назад
00:01:40
Другие видео канала





















