Загрузка...

Scaling Test-Time Interaction for Adaptive Agents

Масштабирование взаимодействия во время тестирования для адаптивных агентов Современные ИИ-агенты часто фокусируются на масштабировании рассуждений за один шаг ("мышления") перед действием в интерактивных средах, что ограничивает их способность адаптироваться и собирать новую информацию. Эта статья предлагает масштабировать взаимодействие во время тестирования ("действия") путем увеличения горизонта взаимодействия агента, чтобы обеспечить динамическое поведение, такое как исследование и перепланирование. Авторы демонстрируют, что даже простой промптинг для увеличения шагов взаимодействия нетривиально улучшает успешность выполнения задач на веб-бенчмарках. Эмпирические результаты показывают, что затраты вычислительных ресурсов на более длинные последовательности взаимодействия более эффективны для интерактивных задач, чем фокусировка исключительно на более глубоких рассуждениях за один шаг. Чтобы обучить агентов использовать это, они представляют TTI (Взаимодействие во время тестирования), метод обучения с подкреплением онлайн на основе учебной программы. TTI обучает агентов, постепенно увеличивая максимально допустимый горизонт взаимодействия, и обнаруживает, что мультипликативный график более эффективен, чем аддитивный. Используя модель Gemma 3 12B, TTI достигает современного уровня производительности среди агентов с открытым исходным кодом и открытыми данными на бенчмарках WebVoyager и WebArena. Анализ показывает, что агенты TTI учатся адаптивно балансировать между исследованием (exploration) и эксплуатацией (exploitation) в зависимости от требований задачи. Хотя один только промптинг недостаточен для надежного масштабирования взаимодействия, обучение с TTI дает агентов, способных эффективно использовать более длинные последовательности действий (rollouts). Эта работа устанавливает масштабирование взаимодействия как мощное, комплементарное измерение к традиционному масштабированию вычислительных ресурсов во время тестирования для разработки более адаптивных агентов. Будущая работа включает расширение этого подхода на другие области и разработку более продвинутых методов обучения с подкреплением для масштабирования взаимодействия. статья - https://arxiv.org/pdf/2506.07976v1 подписаться - https://t.me/arxivdotorg создано с помощью NotebookLM

Видео Scaling Test-Time Interaction for Adaptive Agents автора Paper debate
Страницу в закладки Мои закладки
Все заметки Новая заметка Страницу в заметки