- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
The Transformer Block — Attention, Feed-Forward, Residuals & LayerNorm | datarekha
Assemble the full unit. Each block has two main parts — multi-head attention (tokens talk and mix context) and a per-token feed-forward network (it thinks) — each wrapped in a residual connection (gradients flow straight back) and layer normalization (numbers stay well-behaved). Attention, add, normalize; feed-forward, add, normalize. Stack it dozens of times and you have the body of a modern transformer. Chapter 64 of the full "ML & DL from scratch, with the math" course (watch the complete ~2h09m film, with all chapters & timestamps in its pinned comment). More at datarekha.com. Narration uses a synthetic AI voice.
Related free lessons on datarekha.com:
- Inside the transformer block: https://datarekha.com/deep-learning/transformer-block
- The Transformer Architecture: https://datarekha.com/deep-learning/the-transformer
Видео The Transformer Block — Attention, Feed-Forward, Residuals & LayerNorm | datarekha канала datarekha
Related free lessons on datarekha.com:
- Inside the transformer block: https://datarekha.com/deep-learning/transformer-block
- The Transformer Architecture: https://datarekha.com/deep-learning/the-transformer
Видео The Transformer Block — Attention, Feed-Forward, Residuals & LayerNorm | datarekha канала datarekha
Комментарии отсутствуют
Информация о видео
16 ч. 57 мин. назад
00:01:54
Другие видео канала





















