The Illusion of the Illusion of Thinking: A Critique of LRM Evaluation
Иллюзия иллюзии мышления: Критика оценки моделей большого рассуждения (LRM)
Данный документ комментирует работу Shojaee и соавт. (2025), в которой утверждалось, что модели большого рассуждения (LRM) демонстрируют "спад точности" на сложных задачах планирования. Авторы утверждают, что эти выводы обусловлены ограничениями экспериментального дизайна, а не фундаментальными сбоями в рассуждении LRM. Одна из основных проблем, выявленных авторами, заключается в том, что эксперименты с Ханойской башней часто требуют выходных последовательностей, превышающих лимиты токенов модели, что модели иногда явно признают. Автоматизированная система оценки, использованная в оригинальном исследовании, предположительно не различает неспособность модели решить задачу и ее усечение из-за практических ограничений. Более того, в тестах на переправу через реку есть математически невозможные случаи для определенных параметров (N ≥ 6 при вместимости лодки 3), но модели при этом ошибочно оцениваются как потерпевшие неудачу. Авторы утверждают, что штрафование моделей за нерешение неразрешимых задач или за достижение лимитов токенов искажает их истинные возможности. Предварительные эксперименты с использованием альтернативных форматов вывода, таких как запрос генеративных функций для решений Ханойской башни, демонстрируют высокую точность на примерах, ранее считавшихся неудачными. Эти результаты свидетельствуют о том, что модели обладают базовой способностью к рассуждению, но им мешают специфические форматы оценки, требующие исчерпывающего вывода. В статье также критикуется использование длины решения как метрики сложности, утверждая, что истинная сложность задачи больше связана с коэффициентом ветвления и требованиями к поиску. В заключение авторы выступают за более надежные дизайны оценки, которые различают рассуждение и ограничения вывода, проверяют разрешимость задачи и используют соответствующие метрики сложности.
документ - https://arxiv.org/pdf/2506.09250v1
подписаться - https://t.me/arxivdotorg
создано с помощью NotebookLM
Видео The Illusion of the Illusion of Thinking: A Critique of LRM Evaluation автора Paper debate
Видео The Illusion of the Illusion of Thinking: A Critique of LRM Evaluation автора Paper debate
Информация
13 ч. 53 мин. назад
00:05:59
Похожие видео