REASONING GYM: Reasoning Environments for RL with Verifiable Rewards
REASONING GYM: Среды для рассуждений для RL с проверяемыми наградами
В статье представлена библиотека REASONING GYM (RG), новая библиотека сред для рассуждений, специально разработанных для обучения с подкреплением с проверяемыми наградами (RLVR). RG включает более 100 процедурно генерируемых задач и верификаторов в различных областях, включая математику, алгоритмы, когнитивные задачи и игры. Ключевое новшество заключается в генерации почти бесконечного объема тренировочных данных с контролируемой сложностью, что позволяет преодолеть ограничения статических наборов данных. Такой процедурный подход поддерживает непрерывную оценку и динамическое обучение по учебному плану, одновременно снижая проблемы запоминания. Эксперименты показывают, что даже ведущие большие языковые модели (БЯМ) испытывают трудности с производительностью в режиме zero-shot на многих сложных задачах RG, особенно на тех, которые связаны с визуально-пространственным рассуждением в текстовой форме. Значительное явление "обрыва сложности" демонстрирует резкое падение производительности по мере увеличения сложности задач в различных категориях. Модели, явно обученные рассуждениям, значительно превосходят модели общего назначения на задачах RG, подчеркивая преимущество специализированного обучения. Исследование демонстрирует сильный внутридоменный перенос: обучение с RLVR улучшает производительность на отложенных задачах в той же категории рассуждений. Важно отметить, что наблюдается удивительный кросс-доменный перенос, указывающий на то, что навыки, полученные в одной области, могут улучшать производительность в несвязанных областях. Наконец, обучение на задачах RG демонстрирует существенное улучшение результатов на известных внешних бенчмарках, таких как GSM8K и MATH.
статья - http://arxiv.org/pdf/2505.24760v1
подписаться - https://t.me/arxivdotorg
создано с помощью NotebookLM
Видео REASONING GYM: Reasoning Environments for RL with Verifiable Rewards автора Paper debate
Видео REASONING GYM: Reasoning Environments for RL with Verifiable Rewards автора Paper debate
Информация
8 июня 2025 г. 13:25:27
00:06:30
Похожие видео