Лайфстайл	Недвижимость	Здоровье
Природа	Дизайн	Техника и оборудование
Бизнес и предпринимательство	Искусство	Религия
Строительство и ремонт	Сад и огород	Аудиокниги
Кулинария	Интервью	Развлечения
Лайфхаки	Эзотерика	Охота и рыбалка
Наука	Политика	Психология
Аудио	Технологии и интернет	Красота
Телепередачи	Детям	Аниме
Хобби	Видеоигры	Юмор
Образование	Спорт	Разное
Путешествия	Животные	Новости и СМИ
Мультфильмы	Музыка	Сериалы
Фильмы	Авто-мото

REASONING GYM: Reasoning Environments for RL with Verifiable Rewards

REASONING GYM: Среды для рассуждений для RL с проверяемыми наградами В статье представлена библиотека REASONING GYM (RG), новая библиотека сред для рассуждений, специально разработанных для обучения с подкреплением с проверяемыми наградами (RLVR). RG включает более 100 процедурно генерируемых задач и верификаторов в различных областях, включая математику, алгоритмы, когнитивные задачи и игры. Ключевое новшество заключается в генерации почти бесконечного объема тренировочных данных с контролируемой сложностью, что позволяет преодолеть ограничения статических наборов данных. Такой процедурный подход поддерживает непрерывную оценку и динамическое обучение по учебному плану, одновременно снижая проблемы запоминания. Эксперименты показывают, что даже ведущие большие языковые модели (БЯМ) испытывают трудности с производительностью в режиме zero-shot на многих сложных задачах RG, особенно на тех, которые связаны с визуально-пространственным рассуждением в текстовой форме. Значительное явление "обрыва сложности" демонстрирует резкое падение производительности по мере увеличения сложности задач в различных категориях. Модели, явно обученные рассуждениям, значительно превосходят модели общего назначения на задачах RG, подчеркивая преимущество специализированного обучения. Исследование демонстрирует сильный внутридоменный перенос: обучение с RLVR улучшает производительность на отложенных задачах в той же категории рассуждений. Важно отметить, что наблюдается удивительный кросс-доменный перенос, указывающий на то, что навыки, полученные в одной области, могут улучшать производительность в несвязанных областях. Наконец, обучение на задачах RG демонстрирует существенное улучшение результатов на известных внешних бенчмарках, таких как GSM8K и MATH. статья - http://arxiv.org/pdf/2505.24760v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM

Видео REASONING GYM: Reasoning Environments for RL with Verifiable Rewards автора Paper debate

Информация