Защита от галлюцинаций · в карточках

Защита от галлюцинаций

Главный риск ИИ — уверенно выдать догадку за факт. Мы снимаем его архитектурно: ответ проходит независимую проверку, опирается на источники, а спорное — помечается, а не утверждается.

Эти принципы — из нашего многоагентного оркестратора: он устроен так, что преждевременное «готово» и недоказанный факт не проходят дальше.

01

Что такое «галлюцинация» и почему модель уверенно ошибается?

«Галлюцинация» — это когда ИИ выдаёт правдоподобный, но неверный ответ, причём уверенным тоном. Языковая модель по своей природе продолжает текст так, «как вероятнее звучит», а не «как есть на самом деле». Поэтому в одиночку она может придумать факт, источник или цифру — и подать это без тени сомнения.

Опасность не в самой ошибке, а в её убедительности: на вид она неотличима от правды. Значит, защита — это не «попросить модель не врать» (это не работает), а внешняя система проверки вокруг модели, которая ловит непроверенное до того, как оно дойдёт до пользователя.

Коротко: проблему решает не модель сама по себе, а архитектура вокруг неё — разделение ролей, опора на источники и независимая проверка.

02

Как вы не даёте модели выдумывать факты?

Мы заземляем ответ на проверенные источники. Система сначала находит релевантные документы в вашей базе, и ответ строится из них — с указанием, откуда взят каждый факт. Модель не «вспоминает», а работает с тем, что найдено.

  • Ответ — из источников, а не «из головы». Модель опирается на найденные фрагменты вашей базы, а не на память обучения.
  • Каждый факт — со ссылкой. Утверждение сопровождается источником, который можно открыть и перепроверить.
  • Нет опоры — нет ответа. Если основания в базе нет, система говорит «недостаточно данных», а не сочиняет. «Не знаю» — это допустимый и правильный ответ.
  • Задача ставится проверяемо. Ещё до работы формулируется, что считать корректным ответом (критерии) — потом по ним и сверяем.

Итог: модель отвечает на заземлённый вопрос с источником — а не сочиняет гладкий текст в пустоте.

03

Ответ ИИ проверяет сам ИИ?

Нет — и это ключевой момент. Тот, кто делает работу, и тот, кто её проверяет, — разные агенты. Автор ответа не выставляет сам себе оценку.

В нашем оркестраторе роли разделены: исполнитель генерирует ответ или действие, а независимый контролёр отдельно собирает доказательства и судит по фактам, а не по принципу «верю автору». Самоподтверждение — главный источник галлюцинаций, и мы убираем его архитектурно.

  • Исполнитель ≠ контролёр. Проверку ведёт другой агент, не заинтересованный в том, чтобы работа «выглядела готовой».
  • Проверка — на доказательствах. Контролёр требует источник или подтверждение, а не принимает утверждение на слово.
  • Финал — по критериям. Результат сверяется с заранее заданной спецификацией, а не оценивается «на глаз».

Почему это важно: одна модель, проверяющая саму себя, склонна подтверждать собственные ошибки. Независимый контролёр их ловит.

04

А если ошибка выглядит правдоподобно?

Самые опасные ошибки — те, что звучат убедительно. Против них работает состязательная проверка: несколько независимых проверяющих не «подтверждают» ответ, а пытаются его опровергнуть.

  • Установка на опровержение. Проверяющий целенаправленно ищет, где факт ломается, а не где он «вроде ок».
  • Разные ракурсы. Корректность, соответствие источнику, воспроизводимость — каждый проверяющий смотрит со своей стороны, а не дублирует остальных.
  • Проходит только устоявшее. Утверждение принимается, лишь если пережило попытки его сломать (согласие большинства). Не устояло — на доработку или к человеку.

Суть: факт становится «фактом» не потому, что звучит гладко, а потому что выдержал попытки его опровергнуть.

05

Почему система не спешит ответить и как понимает, что «готово»?

Главный риск длинных задач — преждевременное «готово»: система выдаёт первый правдоподобный результат и останавливается. Наш оркестратор устроен наоборот — он не доверяет первому ответу.

  • Поиск пробелов по кругу. После каждого шага система спрашивает: «что осталось непроверенным, чего не хватает?» — и это запускает новый круг, пока не станет «сухо».
  • «Готово» — только по доказательствам. Финальная приёмка запускается, лишь когда собранные доказательства подтверждают, что критерии выполнены. Сам запрос на закрытие тоже проходит проверку.
  • План и границы — заранее. Задача раскладывается в план с явными, проверяемыми критериями — есть с чем сверять результат, а не «доверять ощущению».

Коротко: «готово» — это не «получился правдоподобный ответ», а «критерии выполнены и это подтверждено независимо».

06

Все ступени защиты — конвейер проверки

Защита от галлюцинаций — это не одна стена, а конвейер из нескольких ступеней. Ответ проходит их по порядку, и граница проверки отделяет «производство» ответа от независимого «контроля».

  1. Постановка задачи и план

    Задача раскладывается на шаги с явными, проверяемыми критериями успеха и точками контроля. Появляется спецификация, по которой потом сверяют результат.

  2. Заземление на источники

    Поиск (retrieval) по вашей проверенной базе; ответ строится из найденных фрагментов, с цитатами. Нет опоры → «недостаточно данных» вместо догадки.

  3. Черновик исполнителя

    Рабочий агент генерирует ответ или действие. Это ещё не результат, а кандидат, который обязан пройти проверку.

    — — — граница проверки — — —
  4. Независимая проверка

    Другой агент (или несколько) собирает доказательства и состязательно пытается опровергнуть каждое утверждение:

    • проверяющий не видел «как удобнее автору» — он смотрит на факты;
    • спорные утверждения проверяются с разных ракурсов (корректность, источник, воспроизводимость);
    • решение — согласием большинства, а не одним голосом.
  5. Поиск пробелов

    «Что осталось непроверенным, чего не хватает?» → новый круг работы, пока не исчерпано. Преждевременное «готово» здесь не проходит.

  6. Выдача, остановка и аудит

    Финал наступает только при выполненных и подтверждённых критериях. Спорное помечается и уходит человеку, а не выдаётся за истину; каждый факт трассируется до источника, а исходящие запросы логируются.

Шесть принципов под капотом

Инженерные правила оркестратора, на которых держатся все карточки выше.

ПРИНЦИП 01

Заземление на источники

Отвечаем из проверенной базы и с цитатами, а не по памяти модели. Нет основания в источниках — честное «не знаю».

ПРИНЦИП 02

Исполнитель ≠ контролёр

Работу проверяет независимый агент, а не её автор. Самоподтверждение — главный источник галлюцинаций — исключено архитектурно.

ПРИНЦИП 03

Состязательная проверка

Проверяющие пытаются опровергнуть факт, а не подтвердить. Проходит только то, что устояло — по согласию большинства.

ПРИНЦИП 04

Критерии до работы

Проверяемые критерии успеха заданы заранее. Результат сверяется со спецификацией, а не оценивается «на глаз».

ПРИНЦИП 05

Поиск пробелов по кругу

«Чего не хватает, что не проверено» повторяется до исчерпания. Первый правдоподобный ответ — не финал.

ПРИНЦИП 06

Остановка по доказательствам

«Готово» — только при подтверждённых критериях. Каждый факт трассируется до источника, спорное уходит человеку, исходящее — в лог.

Покажем защиту от галлюцинаций на ваших задачах

Соберём контур проверки под ваш процесс, зададим критерии корректности и продемонстрируем, как спорные ответы отсеиваются ещё до того, как дойдут до пользователя.

info@ai-automation.llc Как устроена безопасность →