Защита от галлюцинаций

Что такое «галлюцинация» и почему модель уверенно ошибается?

«Галлюцинация» — это когда ИИ выдаёт правдоподобный, но неверный ответ, причём уверенным тоном. Языковая модель по своей природе продолжает текст так, «как вероятнее звучит», а не «как есть на самом деле». Поэтому в одиночку она может придумать факт, источник или цифру — и подать это без тени сомнения.

Опасность не в самой ошибке, а в её убедительности: на вид она неотличима от правды. Значит, защита — это не «попросить модель не врать» (это не работает), а внешняя система проверки вокруг модели, которая ловит непроверенное до того, как оно дойдёт до пользователя.

Коротко: проблему решает не модель сама по себе, а архитектура вокруг неё — разделение ролей, опора на источники и независимая проверка.

Как вы не даёте модели выдумывать факты?

Мы заземляем ответ на проверенные источники. Система сначала находит релевантные документы в вашей базе, и ответ строится из них — с указанием, откуда взят каждый факт. Модель не «вспоминает», а работает с тем, что найдено.

Ответ — из источников, а не «из головы». Модель опирается на найденные фрагменты вашей базы, а не на память обучения.
Каждый факт — со ссылкой. Утверждение сопровождается источником, который можно открыть и перепроверить.
Нет опоры — нет ответа. Если основания в базе нет, система говорит «недостаточно данных», а не сочиняет. «Не знаю» — это допустимый и правильный ответ.
Задача ставится проверяемо. Ещё до работы формулируется, что считать корректным ответом (критерии) — потом по ним и сверяем.

Итог: модель отвечает на заземлённый вопрос с источником — а не сочиняет гладкий текст в пустоте.

Ответ ИИ проверяет сам ИИ?

Нет — и это ключевой момент. Тот, кто делает работу, и тот, кто её проверяет, — разные агенты. Автор ответа не выставляет сам себе оценку.

В нашем оркестраторе роли разделены: исполнитель генерирует ответ или действие, а независимый контролёр отдельно собирает доказательства и судит по фактам, а не по принципу «верю автору». Самоподтверждение — главный источник галлюцинаций, и мы убираем его архитектурно.

Исполнитель ≠ контролёр. Проверку ведёт другой агент, не заинтересованный в том, чтобы работа «выглядела готовой».
Проверка — на доказательствах. Контролёр требует источник или подтверждение, а не принимает утверждение на слово.
Финал — по критериям. Результат сверяется с заранее заданной спецификацией, а не оценивается «на глаз».

Почему это важно: одна модель, проверяющая саму себя, склонна подтверждать собственные ошибки. Независимый контролёр их ловит.

А если ошибка выглядит правдоподобно?

Самые опасные ошибки — те, что звучат убедительно. Против них работает состязательная проверка: несколько независимых проверяющих не «подтверждают» ответ, а пытаются его опровергнуть.

Установка на опровержение. Проверяющий целенаправленно ищет, где факт ломается, а не где он «вроде ок».
Разные ракурсы. Корректность, соответствие источнику, воспроизводимость — каждый проверяющий смотрит со своей стороны, а не дублирует остальных.
Проходит только устоявшее. Утверждение принимается, лишь если пережило попытки его сломать (согласие большинства). Не устояло — на доработку или к человеку.

Суть: факт становится «фактом» не потому, что звучит гладко, а потому что выдержал попытки его опровергнуть.

Почему система не спешит ответить и как понимает, что «готово»?

Главный риск длинных задач — преждевременное «готово»: система выдаёт первый правдоподобный результат и останавливается. Наш оркестратор устроен наоборот — он не доверяет первому ответу.

Поиск пробелов по кругу. После каждого шага система спрашивает: «что осталось непроверенным, чего не хватает?» — и это запускает новый круг, пока не станет «сухо».
«Готово» — только по доказательствам. Финальная приёмка запускается, лишь когда собранные доказательства подтверждают, что критерии выполнены. Сам запрос на закрытие тоже проходит проверку.
План и границы — заранее. Задача раскладывается в план с явными, проверяемыми критериями — есть с чем сверять результат, а не «доверять ощущению».

Коротко: «готово» — это не «получился правдоподобный ответ», а «критерии выполнены и это подтверждено независимо».

Все ступени защиты — конвейер проверки

Защита от галлюцинаций — это не одна стена, а конвейер из нескольких ступеней. Ответ проходит их по порядку, и граница проверки отделяет «производство» ответа от независимого «контроля».

Постановка задачи и план

Задача раскладывается на шаги с явными, проверяемыми критериями успеха и точками контроля. Появляется спецификация, по которой потом сверяют результат.
Заземление на источники

Поиск (retrieval) по вашей проверенной базе; ответ строится из найденных фрагментов, с цитатами. Нет опоры → «недостаточно данных» вместо догадки.
Черновик исполнителя

Рабочий агент генерирует ответ или действие. Это ещё не результат, а кандидат, который обязан пройти проверку.
— — — граница проверки — — —
Независимая проверка

Другой агент (или несколько) собирает доказательства и состязательно пытается опровергнуть каждое утверждение:
- проверяющий не видел «как удобнее автору» — он смотрит на факты;
- спорные утверждения проверяются с разных ракурсов (корректность, источник, воспроизводимость);
- решение — согласием большинства, а не одним голосом.
Поиск пробелов

«Что осталось непроверенным, чего не хватает?» → новый круг работы, пока не исчерпано. Преждевременное «готово» здесь не проходит.
Выдача, остановка и аудит

Финал наступает только при выполненных и подтверждённых критериях. Спорное помечается и уходит человеку, а не выдаётся за истину; каждый факт трассируется до источника, а исходящие запросы логируются.

Что такое «галлюцинация» и почему модель уверенно ошибается?

Как вы не даёте модели выдумывать факты?

Ответ ИИ проверяет сам ИИ?

А если ошибка выглядит правдоподобно?

Почему система не спешит ответить и как понимает, что «готово»?

Все ступени защиты — конвейер проверки

Постановка задачи и план

Заземление на источники

Черновик исполнителя

Независимая проверка

Поиск пробелов

Выдача, остановка и аудит

Шесть принципов под капотом

Заземление на источники

Исполнитель ≠ контролёр

Состязательная проверка

Критерии до работы

Поиск пробелов по кругу

Остановка по доказательствам

Покажем защиту от галлюцинаций на ваших задачах