Загрузка страницы

Lecture 12.3 Famous transformers (BERT, GPT-2, GPT-3)

ERRATA:
In the "original transformer" (slide 51), in the source attention, the key and value come from the encoder, and the query comes from the decoder.

In this lecture we look at the details of some famous transformer models. How were they trained, and what could they do after they were trained.

slides: https://dlvu.github.io/slides/dlvu.lecture12.pdf
course website: https://dlvu.github.io
Lecturer: Peter Bloem

Видео Lecture 12.3 Famous transformers (BERT, GPT-2, GPT-3) канала DLVU
Показать
Комментарии отсутствуют
Введите заголовок:

Введите адрес ссылки:

Введите адрес видео с YouTube:

Зарегистрируйтесь или войдите с
Информация о видео
30 ноября 2020 г. 18:52:14
00:23:35
Яндекс.Метрика