Загрузка страницы

BPE-токенизация и её улучшения / Антон Земеров

VK Lab Talks · Summer Edition, 1 июля 2021, онлайн.

Студент третьего курса ФПМИ Антон Земеров рассказывает о BPE-токенизации и её улучшениях.

Доклад посвящён state-of-the-art методам поиска оптимального разбиения текста на токены. Антон делится его подробностями: «Сначала рассмотрим классический алгоритм токенизации — Byte Pair Encoding. Затем — его улучшения: BPE-Dropout и Variational BPE-Dropout. Последний был разработан в VK Lab. Этот алгоритм использует вариационные методы и обучение с подкреплением, чтобы оптимально токенизировать текст. В докладе мы разберём сильные и слабые стороны каждого из методов, а также сравним их качество для задачи текстовой классификации».

Следите за нашими новостями в сообществе VK Lab: https://vk.com/lab

Видео BPE-токенизация и её улучшения / Антон Земеров канала Команда ВКонтакте
Показать
Комментарии отсутствуют
Введите заголовок:

Введите адрес ссылки:

Введите адрес видео с YouTube:

Зарегистрируйтесь или войдите с
Информация о видео
26 июля 2021 г. 14:00:19
00:15:45
Другие видео канала
EdCrunch. Ира Шубина об Образовательной платформе ВКонтактеEdCrunch. Ира Шубина об Образовательной платформе ВКонтактеКак объяснить экономику проекта школьникам // Введение в управление IT-проектамиКак объяснить экономику проекта школьникам // Введение в управление IT-проектамиУправление временем. Часть 2Управление временем. Часть 2Команда #1 «Спортивный агрегатор для ментального здоровья бумеров» // ВездекодКоманда #1 «Спортивный агрегатор для ментального здоровья бумеров» // ВездекодКак сделать универсальную модель для fake recognition? / Станислав ДерекаКак сделать универсальную модель для fake recognition? / Станислав ДерекаЧто мы знаем про Transformer в 2020 году / Даниил ГавриловЧто мы знаем про Transformer в 2020 году / Даниил ГавриловЧто хотят подростки? // Soft skills и детская психологияЧто хотят подростки? // Soft skills и детская психологияСтоит ли покупать VR-шлем? Обсуждаем Half-Life: Alyx, Beat Saber и другие возможности VRСтоит ли покупать VR-шлем? Обсуждаем Half-Life: Alyx, Beat Saber и другие возможности VRVK Welcome KitVK Welcome KitУскоряем UI-автотесты на Android и подбираем эффективную конфигурацию под ваши нужды / Иван ЛевиковУскоряем UI-автотесты на Android и подбираем эффективную конфигурацию под ваши нужды / Иван ЛевиковУниверсальные попапы или UIKit против / Антон СпивакУниверсальные попапы или UIKit против / Антон СпивакОбучение нейросетей // Введение в нейронные сетиОбучение нейросетей // Введение в нейронные сетиКирилл Талалаев — «Curriculum Learning в NLP-задачах»Кирилл Талалаев — «Curriculum Learning в NLP-задачах»Хакатон ВКонтакте 2017Хакатон ВКонтакте 2017Распространённые проблемы (разбор кейсов) // Soft skills и детская психологияРаспространённые проблемы (разбор кейсов) // Soft skills и детская психологияO QA VK / Анастасия Бобелева (Семенюк)O QA VK / Анастасия Бобелева (Семенюк)Что будет с онлайн-образованием после пандемии, или Что общего у школы и камеры храненияЧто будет с онлайн-образованием после пандемии, или Что общего у школы и камеры храненияНаш подход к управлению автотестами Android-приложения VK / Николай ШевцовНаш подход к управлению автотестами Android-приложения VK / Николай ШевцовПроектирование и прототипирование / Андрей ОшанинПроектирование и прототипирование / Андрей ОшанинВнутренние инструменты: как мы упрощаем себе жизнь и ускоряем тестирование / Даниил СмирновВнутренние инструменты: как мы упрощаем себе жизнь и ускоряем тестирование / Даниил Смирнов
Яндекс.Метрика