Загрузка...

🧐👉 Твой ChatGPT врёт, а ты не видишь: инструменты Technion ловят галлюцинации изнутри #QixNewsAI

🛠️ Как быстро попробовать LOS-Net (инструкция для инженеров)

LOS-Net — самый доступный инструмент из трёх, потому что ему нужны только выходные вероятности (logprobs), а не внутренности модели. Идеально для тех, кто сам хостит Llama, Qwen или Mistral.

Шаги:
1. Клонируй репозиторий: `git clone https://github.com/BarSGuy/LLM-Output-Signatures-Network`
2. Создай conda-окружение: `conda env create -f los_net_env.yml && conda activate los_net_env`
3. Запусти эксперимент через wandb: `wandb sweep ./sweeps/LOS/DC/llama_13b_BookMIA.yaml`

⚠️ Потребуется одна NVIDIA L-40 GPU, обучение займёт меньше часа.

📰 Что произошло

Исследователи из Technion под руководством доктора Хагая Марона представили три новых метода для обнаружения галлюцинаций и других сбоев в больших языковых моделях. Вместо того чтобы просто смотреть на финальный ответ, инструменты анализируют внутренние сигналы: паттерны активаций, карты внимания и распределения вероятностей.

🧠 Три инструмента

- ACT-ViT (NeurIPS 2025): обрабатывает тензоры активаций со всех слоёв и токенов с помощью Vision Transformer. Показал прирост до +37 AUC на некоторых бенчмарках.
- CHARM (ICLR 2026): строит графы внимания и применяет графовые нейросети, чтобы предсказывать галлюцинации на уровне отдельных токенов.
- LOS-Net (AAAI 2026): работает только с выходными вероятностями (logprobs), не требуя доступа к внутренностям модели. Это самый лёгкий для внедрения вариант, особенно для API-сценариев.

🔍 Практическая ценность

Для 95% пользователей ChatGPT, Claude или Gemini эти инструменты бесполезны — провайдеры не дают доступ к активациям или attention maps. Но если вы сами разворачиваете открытые LLM, LOS-Net можно запустить уже сегодня. Он использует лишь top-K логитов (K=10..20) и работает в 5 раз быстрее аналогов на вспомогательных моделях.

📎 Ссылки
- ACT-ViT: https://github.com/BarSGuy/ACT-ViT
- LOS-Net: https://github.com/BarSGuy/LLM-Output-Signatures-Network
- CHARM: публичного репозитория пока нет

💡 Вывод
Для инженеров, хостящих свои LLM, LOS-Net — это готовый инструмент для внутреннего аудита. Для всех остальных — напоминание, что проблема галлюцинаций решается, но не для закрытых API.

#LOS-Net #детект_галлюцинаций #Technion #logprobs #LLM_безопасность #QixNewsAI #Shorts

Видео 🧐👉 Твой ChatGPT врёт, а ты не видишь: инструменты Technion ловят галлюцинации изнутри #QixNewsAI канала QixNews Экспресс Информ
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять