Подписаться
Опубликовано

ИИ начал «галлюциировать» больше. Что случилось?

Автор
  • Имя
    Нейрократия
    Telegram

ИИ начал «галлюцинировать» больше. Что случилось?

Когда OpenAI выпустила o3 и o4-mini, они ожидали очередной волны восхищения. Но вместо этого получили неприятный фидбэк — количество «галлюцинаций», то есть точных и уверенных ответов, которые при проверке оказываются полной выдумкой, резко возросло.

И это не только беда OpenAI. Китайские разработчики из DeepSeek с моделью R1 и IBM с её Granite 3.2 столкнулись с тем же самым: крутейшие, казалось бы, reasoning-модели галлюцинируют чаще предыдущего поколения нейросетей. В чём проблема?

Размышления с побочным эффектом

Давайте коротко о терминах. «Галлюцинация» ИИ — когда модель уверенно выдаёт информацию, не соответствующую фактам или вообще придуманную. Причина в природе современных языковых моделей: они предсказывают не правильный ответ, а статистически наиболее вероятный.

Модели нового «размышляющего» поколения идут шаг за шагом, пытаясь логически вывести правильный ответ, а это, как выясняется, делает их уязвимыми ещё сильнее. Ошибка, допущенная на каком-то промежуточном этапе, распространяется дальше, превращаясь к концу процесса в откровенную выдумку, которую система подчёркнуто уверенно выдаёт как правду.

Что говорят тесты?

У OpenAI модель o3 при ответах на простейшие вопросы ошибалась до 51%, а ее «младший брат» o4-mini — вовсе в 79% случаев выдает полную ахинею, хотя и делает это быстро и с видимой уверенностью. Даже относительно стабильный GPT-4.5 демонстрирует 37,1% галлюцинаций.

(Я чаще всего пользуют 4.5 в не-ресерч целях, так вот он действительно глючит в полный рост, на голубом глазу придумывая факты; приходится перепроверять.)

DeepSeek R1 демонстрировал показатель «галлюцинаций» на уровне 14,3%, почти в 6 раз выше более раннего DeepSeek-V2.5 (2,4%).

У IBM с моделью Granite 3.2 тоже весело — версия 8B галлюцинировала в 8,7%, версия 2B — ещё чаще, 16,5%.

(Данные по тестам взяты из материала Forbes.)

Почему это происходит на самом деле, говорить уверенно никто не берётся. Кто-то обвиняет особенности тренировочных данных. Кто-то — подход самой архитектуры reasoning-моделей, которые на каждом шаге рискуют закрепить и усилить ошибку. Vectara предположили, что проблема может крыться именно в методах обучения. А в Transluce (некоммерческая исследовательская организация) указали, что модели типа o3 специально приучены выдавать максимально уверенные ответы, предпочитая «придумать», нежели признать, что не знают конкретного факта.

Когда баг становится фичей?

Возможно, самым удивительным прозвучал комментарий Сэма Альтмана, CEO OpenAI, который назвал галлюцинации «скорее фичей, чем багом». По его словам, именно способность систем иногда выдавать неожиданные, нестандартные решения позволяет им быть настолько полезными и творческими.

Конечно, компании пытаются найти решение проблемы. Google и Microsoft заявили об инструментах, способных выявлять сомнительные ответы своих моделей. Есть подходы, позволяющие научить нейросети честно признаваться «я не знаю», а также методы RAG, когда система прежде раскрывает нужные документы и только потом формирует ответ. Но стопроцентного решения нет.

Галлюцинация как термин: вред или польза?

Отдельный спорный вопрос — само слово «галлюцинация». Некоторые утверждают, что называть таким образом ошибки нейросетей означать приписывать системам разум и сознание, которых на самом деле нет. Усама Файяд, руководитель института Northeastern University по прикладному ИИ, убежден, что термин «галлюцинация» опасно очеловечивает искусственный интеллект и заставляет нас ждать от моделей того, чего они изначально дать не способны — осмысленного поведения или намерений.

В идеальном мире мы хотели бы иметь ИИ, создающий абсолютно точные ответы в реальном времени без искажений и ошибок. Правда такова: такого ИИ применительно конкретно к LLM не бывает и, вероятно, никогда не будет. При всем желании создателей и большом финансировании это неотъемлемое ограничение самой природы языковых моделей.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка