Загрузка...

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Длительное обучение с подкреплением расширяет границы рассуждений в больших языковых моделях Недавние работы по языковым моделям, ориентированным на рассуждения, подчеркивают важность обучения с подкреплением (ОС), но остаются вопросы о его способности расширять, а не просто усиливать существующие возможности рассуждения. Существующие исследования часто страдают от использования узких областей или преждевременного завершения обучения с ОС. В этой статье представлена методология Prolonged Reinforcement Learning (ProRL), разработанная для длительных и стабильных периодов обучения с ОС. ProRL включает в себя такие методы, как контроль KL-дивергенции и периодические сбросы референсной политики, для поддержания стабильности на протяжении долгих периодов. Авторы обучили модель Nemotron-Research-Reasoning-Qwen-1.5B с 1,5 млрд параметров на разнообразном наборе данных из 136 тысяч проверяемых задач в пяти областях. Эмпирические результаты демонстрируют, что модели, обученные с помощью ProRL, последовательно и значительно превосходят свои базовые модели на широком спектре бенчмарков рассуждений. Важно отметить, что производительность показывает устойчивое улучшение при длительном обучении, что указывает на эффективное масштабирование ОС с увеличением вычислительных ресурсов. Анализ показывает, что ProRL наиболее эффективен в расширении границ рассуждений в областях, где базовая модель изначально испытывает трудности. Обученная модель также демонстрирует улучшенную обобщающую способность на внедистрибутивных задачах и задачах повышенной сложности. Эти результаты предоставляют убедительные доказательства того, что при достаточном времени обучения и соответствующих методах ОС действительно может позволить языковым моделям разрабатывать совершенно новые стратегии рассуждений. paper - https://arxiv.org/pdf/2505.24864v1 subscribe - https://t.me/arxivdotorg created with NotebookLM

Видео ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models автора Paper debate
Страницу в закладки Мои закладки
Все заметки Новая заметка Страницу в заметки