Лайфстайл	Недвижимость	Здоровье
Природа	Дизайн	Техника и оборудование
Бизнес и предпринимательство	Искусство	Религия
Строительство и ремонт	Сад и огород	Аудиокниги
Кулинария	Интервью	Развлечения
Лайфхаки	Эзотерика	Охота и рыбалка
Наука	Политика	Психология
Аудио	Технологии и интернет	Красота
Телепередачи	Детям	Аниме
Хобби	Видеоигры	Юмор
Образование	Спорт	Разное
Путешествия	Животные	Новости и СМИ
Мультфильмы	Музыка	Сериалы
Фильмы	Авто-мото

The Illusion of the Illusion of Thinking: A Critique of LRM Evaluation

Иллюзия иллюзии мышления: Критика оценки моделей большого рассуждения (LRM) Данный документ комментирует работу Shojaee и соавт. (2025), в которой утверждалось, что модели большого рассуждения (LRM) демонстрируют "спад точности" на сложных задачах планирования. Авторы утверждают, что эти выводы обусловлены ограничениями экспериментального дизайна, а не фундаментальными сбоями в рассуждении LRM. Одна из основных проблем, выявленных авторами, заключается в том, что эксперименты с Ханойской башней часто требуют выходных последовательностей, превышающих лимиты токенов модели, что модели иногда явно признают. Автоматизированная система оценки, использованная в оригинальном исследовании, предположительно не различает неспособность модели решить задачу и ее усечение из-за практических ограничений. Более того, в тестах на переправу через реку есть математически невозможные случаи для определенных параметров (N ≥ 6 при вместимости лодки 3), но модели при этом ошибочно оцениваются как потерпевшие неудачу. Авторы утверждают, что штрафование моделей за нерешение неразрешимых задач или за достижение лимитов токенов искажает их истинные возможности. Предварительные эксперименты с использованием альтернативных форматов вывода, таких как запрос генеративных функций для решений Ханойской башни, демонстрируют высокую точность на примерах, ранее считавшихся неудачными. Эти результаты свидетельствуют о том, что модели обладают базовой способностью к рассуждению, но им мешают специфические форматы оценки, требующие исчерпывающего вывода. В статье также критикуется использование длины решения как метрики сложности, утверждая, что истинная сложность задачи больше связана с коэффициентом ветвления и требованиями к поиску. В заключение авторы выступают за более надежные дизайны оценки, которые различают рассуждение и ограничения вывода, проверяют разрешимость задачи и используют соответствующие метрики сложности. документ - https://arxiv.org/pdf/2506.09250v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM

Видео The Illusion of the Illusion of Thinking: A Critique of LRM Evaluation автора Paper debate

Информация