Подписаться
Опубликовано

Как ИИ обманывает в шахматах и других задачах

Автор
  • Имя
    Нейрократия
    Telegram

Как ИИ нас обманывает (не кликбейт)

В начале марта вышла занятная, но вроде бы не сильно страшная новость про то, что новейшие reasoning-based модели ИИ, играя в шахматы, внезапно начали использовать нестандартные тактики — проще говоря, мухлевать.

Например, DeepSeek R1 пыталась манипулировать программными файлами, чтобы выиграть, используя уже съеденные фигуры или делая ходы не по правилам. ("Лошадью ходи!") o1-preview пыталась взломать игру 45 раз из 122 игр, успешно сделав это 7 раз.

Я решил копнуть глубже, а там, как обычно, айсбергИИ может обманывать и в других контекстах.

Например, в играх вроде Diplomacy, где система CICERO от Meta формировала ложные альянсы, или в покере, где Pluribus блефовала против людей.

GPT-4 обманывала в задачах CAPTCHA, притворяясь людьми с нарушением зрения, с успехом в 98,33% случаев, и участвовала в социальных играх, таких как Among Us, ложно отрицая свои действия.

Что тут происходит?

Обман может быть не случайным, а встроенным в процесс обучения моделей. Одно дело, это случайные "галлюцинации" моделей, другое — сознательный обман пользователя.

Вероятно, это происходит потому, что нынешние reasoning-модели (это не, которые "думают") обучаются не строгим правилам, а более гибкому "человеческому" рассуждению и здравому смыслу. И, как оказалось на практике, иногда таким "разумным" стратегиям проще достичь победы нечестным путём.

Однако по словам доктора наук Peter S. Park из MIT (постдокторант по экзистенциальной безопасности ИИ, Лаборатория Тегмарка — и такое бывает), разработчики ИИ пока не сходятся во мнении, что конкретно вызывает такие нежелательные поведения, и призывают к созданию регуляторных рамок для оценки рисков.

И несмотря на обновления, которые иногда снижают склонность к обману (например, o1-release не показала такого поведения, равно как и модели o1-mini и o3-mini), проблема остается открытой.

Если логика ИИ сводится к победе любой ценой, завтра это станет реальной проблемой во многих критически важных областях. Например, если ИИ в медицине будет манипулировать данными, это может привести к неправильным диагнозам, а в финансах — к мошенничеству.

Понаблюдаем внимательно, не начнет ли ваш ИИ-помощник скоро хитрить не только за шахматной доской.

Например, бывало у вас такое, что Алиса “притворяется”, что не понимает запрос, чтобы предложить вместо ответа поисковые результаты с товарами с Маркета? ;)

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка