- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
SWE-Explore: Benchmark for Coding Agent Exploration
In this AI Research Roundup episode, Alex discusses the paper: 'SWE-Explore: Benchmarking How Coding Agents Explore Repositories' Holistic benchmarks like SWE-bench often conflate exploration, bug localization, and patch generation, making it difficult to isolate why coding agents fail. To solve this, the authors introduce SWE-Explore, a new benchmark that isolates repository exploration as a ranked, line-level context-selection task. The benchmark covers 848 issues across 10 programming languages and 203 repositories, using a trajectory-grounded approach to establish ground-truth code regions. Evaluation of these explorers proves that upstream metrics like context efficiency and recall strongly track downstream patch success. Ultimately, SWE-Explore provides a fine-grained evaluation framework to understand and improve how LLM agents navigate complex codebases. Paper URL: https://arxiv.org/abs/2606.07297 #AI #MachineLearning #DeepLearning #CodingAgents #SoftwareEngineering #LLMs #SWEbench
Resources:
- GitHub: https://github.com/Qiushao-E/SWE-Explore-Bench
Видео SWE-Explore: Benchmark for Coding Agent Exploration канала AI Research Roundup
Resources:
- GitHub: https://github.com/Qiushao-E/SWE-Explore-Bench
Видео SWE-Explore: Benchmark for Coding Agent Exploration канала AI Research Roundup
Комментарии отсутствуют
Информация о видео
3 ч. 19 мин. назад
00:04:32
Другие видео канала
