- Опубликовано
Как ИИ обманывает в шахматах и других задачах
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Как ИИ нас обманывает (не кликбейт)
В начале марта вышла занятная, но вроде бы не сильно страшная новость про то, что новейшие reasoning-based модели ИИ, играя в шахматы, внезапно начали использовать нестандартные тактики — проще говоря, мухлевать.
Например, DeepSeek R1 пыталась манипулировать программными файлами, чтобы выиграть, используя уже съеденные фигуры или делая ходы не по правилам. ("Лошадью ходи!") o1-preview пыталась взломать игру 45 раз из 122 игр, успешно сделав это 7 раз.
Я решил копнуть глубже, а там, как обычно, айсберг — ИИ может обманывать и в других контекстах.
Например, в играх вроде Diplomacy, где система CICERO от Meta формировала ложные альянсы, или в покере, где Pluribus блефовала против людей.
GPT-4 обманывала в задачах CAPTCHA, притворяясь людьми с нарушением зрения, с успехом в 98,33% случаев, и участвовала в социальных играх, таких как Among Us, ложно отрицая свои действия.
Что тут происходит?
Обман может быть не случайным, а встроенным в процесс обучения моделей. Одно дело, это случайные "галлюцинации" моделей, другое — сознательный обман пользователя.
Вероятно, это происходит потому, что нынешние reasoning-модели (это не, которые "думают") обучаются не строгим правилам, а более гибкому "человеческому" рассуждению и здравому смыслу. И, как оказалось на практике, иногда таким "разумным" стратегиям проще достичь победы нечестным путём.
Однако по словам доктора наук Peter S. Park из MIT (постдокторант по экзистенциальной безопасности ИИ, Лаборатория Тегмарка — и такое бывает), разработчики ИИ пока не сходятся во мнении, что конкретно вызывает такие нежелательные поведения, и призывают к созданию регуляторных рамок для оценки рисков.
И несмотря на обновления, которые иногда снижают склонность к обману (например, o1-release не показала такого поведения, равно как и модели o1-mini и o3-mini), проблема остается открытой.
Если логика ИИ сводится к победе любой ценой, завтра это станет реальной проблемой во многих критически важных областях. Например, если ИИ в медицине будет манипулировать данными, это может привести к неправильным диагнозам, а в финансах — к мошенничеству.
Понаблюдаем внимательно, не начнет ли ваш ИИ-помощник скоро хитрить не только за шахматной доской.
Например, бывало у вас такое, что Алиса “притворяется”, что не понимает запрос, чтобы предложить вместо ответа поисковые результаты с товарами с Маркета? ;)
Предыдущий пост
- Опубликовано
P.S. Аудитория Character — 51 миллион человек.
Следующий пост
- Опубликовано
Интро‑пост
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано
















