- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
SoCRATES: New Benchmark for LLM Mediators
In this AI Research Roundup episode, Alex discusses the paper: 'SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations' This paper introduces SoCRATES, a new benchmark designed to evaluate Large Language Model (LLM) mediators in complex, multi-turn social conflicts. To address the limitations of existing testbeds, SoCRATES utilizes a three-stage automated pipeline starting with agentic scenario curation to gather hard, real-world public disputes. It then uses socio-cognitive probing to systematically test the mediators across five independent axes, including strategic posture, emotional reactivity, and cultural identity. Finally, the framework implements a topic-localized evaluator to eliminate noise and accurately score agreement only on relevant topics. Paper URL: https://arxiv.org/abs/2606.05563 #AI #MachineLearning #DeepLearning #LLM #ConflictResolution #NLP #EvaluationBenchmark
Видео SoCRATES: New Benchmark for LLM Mediators канала AI Research Roundup
Видео SoCRATES: New Benchmark for LLM Mediators канала AI Research Roundup
Комментарии отсутствуют
Информация о видео
9 ч. 2 мин. назад
00:04:30
Другие видео канала
