Подписаться
Опубликовано

Как ИИ обманывает в шахматах и других задачах

Автор
  • Имя
    Нейрократия
    Telegram

Как ИИ нас обманывает (не кликбейт)

В начале марта вышла занятная, но вроде бы не сильно страшная новость про то, что новейшие reasoning-based модели ИИ, играя в шахматы, внезапно начали использовать нестандартные тактики — проще говоря, мухлевать.

Например, DeepSeek R1 пыталась манипулировать программными файлами, чтобы выиграть, используя уже съеденные фигуры или делая ходы не по правилам. ("Лошадью ходи!") o1-preview пыталась взломать игру 45 раз из 122 игр, успешно сделав это 7 раз.

Я решил копнуть глубже, а там, как обычно, айсбергИИ может обманывать и в других контекстах.

Например, в играх вроде Diplomacy, где система CICERO от Meta формировала ложные альянсы, или в покере, где Pluribus блефовала против людей.

GPT-4 обманывала в задачах CAPTCHA, притворяясь людьми с нарушением зрения, с успехом в 98,33% случаев, и участвовала в социальных играх, таких как Among Us, ложно отрицая свои действия.

Что тут происходит?

Обман может быть не случайным, а встроенным в процесс обучения моделей. Одно дело, это случайные "галлюцинации" моделей, другое — сознательный обман пользователя.

Вероятно, это происходит потому, что нынешние reasoning-модели (это не, которые "думают") обучаются не строгим правилам, а более гибкому "человеческому" рассуждению и здравому смыслу. И, как оказалось на практике, иногда таким "разумным" стратегиям проще достичь победы нечестным путём.

Однако по словам доктора наук Peter S. Park из MIT (постдокторант по экзистенциальной безопасности ИИ, Лаборатория Тегмарка — и такое бывает), разработчики ИИ пока не сходятся во мнении, что конкретно вызывает такие нежелательные поведения, и призывают к созданию регуляторных рамок для оценки рисков.

И несмотря на обновления, которые иногда снижают склонность к обману (например, o1-release не показала такого поведения, равно как и модели o1-mini и o3-mini), проблема остается открытой.

Если логика ИИ сводится к победе любой ценой, завтра это станет реальной проблемой во многих критически важных областях. Например, если ИИ в медицине будет манипулировать данными, это может привести к неправильным диагнозам, а в финансах — к мошенничеству.

Понаблюдаем внимательно, не начнет ли ваш ИИ-помощник скоро хитрить не только за шахматной доской.

Например, бывало у вас такое, что Алиса “притворяется”, что не понимает запрос, чтобы предложить вместо ответа поисковые результаты с товарами с Маркета? ;)

Нейрократия
582 подписчика
235 постов
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

OpenAI захватили гоблины

OpenAI захватили гоблиныЯ не шучу, абсолютно серьезно. Ладно, не OpenAI, а модели ChatGPT.Вчера OpenAI опубликовала странный разбор: почему...
Опубликовано

Зачем ИИ учат симулировать мир

Зачем ИИ учат симулировать мирOdyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но...
Опубликовано

Общество будущего от OpenAI: что с ним не так

OpenAI предлагает политику ИИ, но сохраняет выгоду компаний, усиливает концентрацию и создаёт барьеры, не решая риски безопасности.
Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.