Загрузка...

108枚奥赛奖牌得主的残酷围猎:FrontierScience以博士级科研深度,揭示大模型推理能力的真实断层

OpenAI 发布全新基准测试 FrontierScience,旨在评估 AI 在专家级科学推理中的表现。该基准包含由 108 位奥赛奖牌得主编写的竞赛轨道,以及 45 位博士设计的科研实战轨道,有效填补了现有评测逐渐饱和的空白。研究引入了基于评分细则的 AI 评判架构,确保对开放式任务的评估具备客观性。实验数据显示,尽管 GPT-5.2 在竞赛题目中表现出色,但在处理复杂的长链条科研实际问题时准确率仅约 25%,揭示了大模型在通向人工智能科学家路径上依然面临严峻的推理瓶颈。

Видео 108枚奥赛奖牌得主的残酷围猎:FrontierScience以博士级科研深度,揭示大模型推理能力的真实断层 канала Agent 创世纪
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять