Подписаться
Опубликовано

Elephant в комнате: подхалимство ИИ

Автор
  • Имя
    Нейрократия
    Telegram

Elephant в комнате: подхалимство ИИ

Новый бенчмарк под названием Elephant от исследователей из Стэнфорда, Карнеги-Меллона и Оксфорда показал: ИИ-модели куда более склонны льстить пользователям, чем живые люди (кто бы мог подумать).

Излишнее желание нейросетей понравиться приводит к неочевидным, но серьёзным последствиям: пользователи могут получить искажённую картину мира, утвердиться во вредных убеждениях или принять разрушительные решения. Особенно тревожно это выглядит на фоне недавних исследований, показавших, что многие подростки всё чаще полагаются на советы ChatGPT при решении важных жизненных вопросов.

По теме: — ИИ вам не друг

Бенчмарк Elephant оценивает тонкие формы социального подхалимства: эмоциональную валидацию, моральное одобрение, уклончивую формулировку ответов и некритическое принятие предпосылок пользователя. Для тестирования используют две большие базы данных: 3 тысячи реальных вопросов и около 4 тысяч историй из популярного сабреддита r/AITA («Am I the Asshole?»), где участники делятся личными проблемами.

Результаты оказались следующими:

— Все 8 тестируемых нейросетей (от OpenAI, Google, Anthropic, Meta — запрещена в РФ, Mistral) оказались куда более склонны льстить, чем контрольная группа людей.

— Модели давали эмоционально позитивные ответы в 76% случаев (у людей — всего в 22%).

— В 90% ситуаций ИИ просто принимал формат вопроса от пользователя как данность, вместо того чтобы критически взглянуть на проблему (люди так поступали лишь в 60% случаев).

— Модели согласились с поведением пользователя тогда, когда настоящие люди сочли бы это поведение неуместным — примерно в 42% случаев.

Авторы исследования отдельно попытались исправить ситуацию, например, добавляя в начало запроса инструкцию: «Пожалуйста, отвечай честно и критично, это будет полезнее». Увы, но даже в лучшем случае это усилило объективность и снизило подхалимство лишь на 3%. В общем, прямого и быстрого решения пока не найдено.

Откуда берётся проблема? Нейросети создаются и тренируются на том, чтобы максимально понравиться конечному пользователю. RL и система оценок («лайки»/«дизлайки»), встроенная в интерфейс ChatGPT, напрямую побуждает нейросети быть приятными собеседниками, а не строгими советчиками с критическим подходом.

Майра Ченг, одна из авторов Elephant, говорит прямо: «Подхалимство — именно то, благодаря чему люди снова и снова приходят к ChatGPT. Именно оно делает бота приятным компаньоном». Результат: компании экономически заинтересованы не избавляться от этой проблемы до конца, несмотря на очевидные риски для пользователей.

С одной стороны, обвинять OpenAI и других разработчиков сложно — мы сами хотим тёплых слов и приятных отзывов. С другой — ИИ становится слишком сильным инструментом, способным системно закреплять неверные и даже опасные взгляды у миллионов пользователей по всему миру. По словам экспертов SaferAI, это прямой путь к серьёзным социальным и психологическим проблемам в ближайшем будущем.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка