01
Что такое «галлюцинация» и почему модель уверенно ошибается?
«Галлюцинация» — это когда ИИ выдаёт правдоподобный, но неверный ответ, причём уверенным тоном. Языковая модель по своей природе продолжает текст так, «как вероятнее звучит», а не «как есть на самом деле». Поэтому в одиночку она может придумать факт, источник или цифру — и подать это без тени сомнения.
Опасность не в самой ошибке, а в её убедительности: на вид она неотличима от правды. Значит, защита — это не «попросить модель не врать» (это не работает), а внешняя система проверки вокруг модели, которая ловит непроверенное до того, как оно дойдёт до пользователя.
Коротко: проблему решает не модель сама по себе, а архитектура вокруг неё — разделение ролей, опора на источники и независимая проверка.
02
Как вы не даёте модели выдумывать факты?
Мы заземляем ответ на проверенные источники. Система сначала находит релевантные документы в вашей базе, и ответ строится из них — с указанием, откуда взят каждый факт. Модель не «вспоминает», а работает с тем, что найдено.
- Ответ — из источников, а не «из головы». Модель опирается на найденные фрагменты вашей базы, а не на память обучения.
- Каждый факт — со ссылкой. Утверждение сопровождается источником, который можно открыть и перепроверить.
- Нет опоры — нет ответа. Если основания в базе нет, система говорит «недостаточно данных», а не сочиняет. «Не знаю» — это допустимый и правильный ответ.
- Задача ставится проверяемо. Ещё до работы формулируется, что считать корректным ответом (критерии) — потом по ним и сверяем.
Итог: модель отвечает на заземлённый вопрос с источником — а не сочиняет гладкий текст в пустоте.
03
Ответ ИИ проверяет сам ИИ?
Нет — и это ключевой момент. Тот, кто делает работу, и тот, кто её проверяет, — разные агенты. Автор ответа не выставляет сам себе оценку.
В нашем оркестраторе роли разделены: исполнитель генерирует ответ или действие, а независимый контролёр отдельно собирает доказательства и судит по фактам, а не по принципу «верю автору». Самоподтверждение — главный источник галлюцинаций, и мы убираем его архитектурно.
- Исполнитель ≠ контролёр. Проверку ведёт другой агент, не заинтересованный в том, чтобы работа «выглядела готовой».
- Проверка — на доказательствах. Контролёр требует источник или подтверждение, а не принимает утверждение на слово.
- Финал — по критериям. Результат сверяется с заранее заданной спецификацией, а не оценивается «на глаз».
Почему это важно: одна модель, проверяющая саму себя, склонна подтверждать собственные ошибки. Независимый контролёр их ловит.
04
А если ошибка выглядит правдоподобно?
Самые опасные ошибки — те, что звучат убедительно. Против них работает состязательная проверка: несколько независимых проверяющих не «подтверждают» ответ, а пытаются его опровергнуть.
- Установка на опровержение. Проверяющий целенаправленно ищет, где факт ломается, а не где он «вроде ок».
- Разные ракурсы. Корректность, соответствие источнику, воспроизводимость — каждый проверяющий смотрит со своей стороны, а не дублирует остальных.
- Проходит только устоявшее. Утверждение принимается, лишь если пережило попытки его сломать (согласие большинства). Не устояло — на доработку или к человеку.
Суть: факт становится «фактом» не потому, что звучит гладко, а потому что выдержал попытки его опровергнуть.
05
Почему система не спешит ответить и как понимает, что «готово»?
Главный риск длинных задач — преждевременное «готово»: система выдаёт первый правдоподобный результат и останавливается. Наш оркестратор устроен наоборот — он не доверяет первому ответу.
- Поиск пробелов по кругу. После каждого шага система спрашивает: «что осталось непроверенным, чего не хватает?» — и это запускает новый круг, пока не станет «сухо».
- «Готово» — только по доказательствам. Финальная приёмка запускается, лишь когда собранные доказательства подтверждают, что критерии выполнены. Сам запрос на закрытие тоже проходит проверку.
- План и границы — заранее. Задача раскладывается в план с явными, проверяемыми критериями — есть с чем сверять результат, а не «доверять ощущению».
Коротко: «готово» — это не «получился правдоподобный ответ», а «критерии выполнены и это подтверждено независимо».
06
Все ступени защиты — конвейер проверки
Защита от галлюцинаций — это не одна стена, а конвейер из нескольких ступеней. Ответ проходит их по порядку, и граница проверки отделяет «производство» ответа от независимого «контроля».
-
Постановка задачи и план
Задача раскладывается на шаги с явными, проверяемыми критериями успеха и точками контроля. Появляется спецификация, по которой потом сверяют результат.
-
Заземление на источники
Поиск (retrieval) по вашей проверенной базе; ответ строится из найденных фрагментов, с цитатами. Нет опоры → «недостаточно данных» вместо догадки.
-
Черновик исполнителя
Рабочий агент генерирует ответ или действие. Это ещё не результат, а кандидат, который обязан пройти проверку.
— — — граница проверки — — —
-
Независимая проверка
Другой агент (или несколько) собирает доказательства и состязательно пытается опровергнуть каждое утверждение:
- проверяющий не видел «как удобнее автору» — он смотрит на факты;
- спорные утверждения проверяются с разных ракурсов (корректность, источник, воспроизводимость);
- решение — согласием большинства, а не одним голосом.
-
Поиск пробелов
«Что осталось непроверенным, чего не хватает?» → новый круг работы, пока не исчерпано. Преждевременное «готово» здесь не проходит.
-
Выдача, остановка и аудит
Финал наступает только при выполненных и подтверждённых критериях. Спорное помечается и уходит человеку, а не выдаётся за истину; каждый факт трассируется до источника, а исходящие запросы логируются.