- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
We Taught an AI to Forget
We trained a 1.5B model to actively manage a fixed memory buffer using Supervised Fine-Tuning followed by Group Relative Policy Optimization (GRPO). Built on Meta's OpenEnv framework, our agent decides every single step — Add, Remove, or Noop — across hundreds of incoming messages with slots available. The result: both GRPO variants hit positive reward per step while the base model bleeds negative. F1 jumps from 6% to 78% on the hardest episodes. This isn't a bigger context window. It's a smarter one. Submitted for the OpenEnv Hackathon 2026. GitHub and HuggingFace Space linked below.
Видео We Taught an AI to Forget канала Mathew
Видео We Taught an AI to Forget канала Mathew
Комментарии отсутствуют
Информация о видео
26 апреля 2026 г. 16:09:06
00:01:05
Другие видео канала

