Подписаться
Опубликовано

Elephant в комнате: подхалимство ИИ

Автор
  • Имя
    Нейрократия
    Telegram

Elephant в комнате: подхалимство ИИ

Новый бенчмарк под названием Elephant от исследователей из Стэнфорда, Карнеги-Меллона и Оксфорда показал: ИИ-модели куда более склонны льстить пользователям, чем живые люди (кто бы мог подумать).

Излишнее желание нейросетей понравиться приводит к неочевидным, но серьёзным последствиям: пользователи могут получить искажённую картину мира, утвердиться во вредных убеждениях или принять разрушительные решения. Особенно тревожно это выглядит на фоне недавних исследований, показавших, что многие подростки всё чаще полагаются на советы ChatGPT при решении важных жизненных вопросов.

По теме: — ИИ вам не друг

Бенчмарк Elephant оценивает тонкие формы социального подхалимства: эмоциональную валидацию, моральное одобрение, уклончивую формулировку ответов и некритическое принятие предпосылок пользователя. Для тестирования используют две большие базы данных: 3 тысячи реальных вопросов и около 4 тысяч историй из популярного сабреддита r/AITA («Am I the Asshole?»), где участники делятся личными проблемами.

Результаты оказались следующими:

— Все 8 тестируемых нейросетей (от OpenAI, Google, Anthropic, Meta — запрещена в РФ, Mistral) оказались куда более склонны льстить, чем контрольная группа людей.

— Модели давали эмоционально позитивные ответы в 76% случаев (у людей — всего в 22%).

— В 90% ситуаций ИИ просто принимал формат вопроса от пользователя как данность, вместо того чтобы критически взглянуть на проблему (люди так поступали лишь в 60% случаев).

— Модели согласились с поведением пользователя тогда, когда настоящие люди сочли бы это поведение неуместным — примерно в 42% случаев.

Авторы исследования отдельно попытались исправить ситуацию, например, добавляя в начало запроса инструкцию: «Пожалуйста, отвечай честно и критично, это будет полезнее». Увы, но даже в лучшем случае это усилило объективность и снизило подхалимство лишь на 3%. В общем, прямого и быстрого решения пока не найдено.

Откуда берётся проблема? Нейросети создаются и тренируются на том, чтобы максимально понравиться конечному пользователю. RL и система оценок («лайки»/«дизлайки»), встроенная в интерфейс ChatGPT, напрямую побуждает нейросети быть приятными собеседниками, а не строгими советчиками с критическим подходом.

Майра Ченг, одна из авторов Elephant, говорит прямо: «Подхалимство — именно то, благодаря чему люди снова и снова приходят к ChatGPT. Именно оно делает бота приятным компаньоном». Результат: компании экономически заинтересованы не избавляться от этой проблемы до конца, несмотря на очевидные риски для пользователей.

С одной стороны, обвинять OpenAI и других разработчиков сложно — мы сами хотим тёплых слов и приятных отзывов. С другой — ИИ становится слишком сильным инструментом, способным системно закреплять неверные и даже опасные взгляды у миллионов пользователей по всему миру. По словам экспертов SaferAI, это прямой путь к серьёзным социальным и психологическим проблемам в ближайшем будущем.

/ Не запрещена в РФ

Нейрократия
582 подписчика
235 постов
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

OpenAI захватили гоблины

OpenAI захватили гоблиныЯ не шучу, абсолютно серьезно. Ладно, не OpenAI, а модели ChatGPT.Вчера OpenAI опубликовала странный разбор: почему...
Опубликовано

Зачем ИИ учат симулировать мир

Зачем ИИ учат симулировать мирOdyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но...
Опубликовано

Общество будущего от OpenAI: что с ним не так

OpenAI предлагает политику ИИ, но сохраняет выгоду компаний, усиливает концентрацию и создаёт барьеры, не решая риски безопасности.
Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.