- Опубликовано
Elephant в комнате: подхалимство ИИ
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Elephant в комнате: подхалимство ИИ
Новый бенчмарк под названием Elephant от исследователей из Стэнфорда, Карнеги-Меллона и Оксфорда показал: ИИ-модели куда более склонны льстить пользователям, чем живые люди (кто бы мог подумать).
Излишнее желание нейросетей понравиться приводит к неочевидным, но серьёзным последствиям: пользователи могут получить искажённую картину мира, утвердиться во вредных убеждениях или принять разрушительные решения. Особенно тревожно это выглядит на фоне недавних исследований, показавших, что многие подростки всё чаще полагаются на советы ChatGPT при решении важных жизненных вопросов.
По теме: — ИИ вам не друг
Бенчмарк Elephant оценивает тонкие формы социального подхалимства: эмоциональную валидацию, моральное одобрение, уклончивую формулировку ответов и некритическое принятие предпосылок пользователя. Для тестирования используют две большие базы данных: 3 тысячи реальных вопросов и около 4 тысяч историй из популярного сабреддита r/AITA («Am I the Asshole?»), где участники делятся личными проблемами.
Результаты оказались следующими:
— Все 8 тестируемых нейросетей (от OpenAI, Google, Anthropic, Meta — запрещена в РФ, Mistral) оказались куда более склонны льстить, чем контрольная группа людей.
— Модели давали эмоционально позитивные ответы в 76% случаев (у людей — всего в 22%).
— В 90% ситуаций ИИ просто принимал формат вопроса от пользователя как данность, вместо того чтобы критически взглянуть на проблему (люди так поступали лишь в 60% случаев).
— Модели согласились с поведением пользователя тогда, когда настоящие люди сочли бы это поведение неуместным — примерно в 42% случаев.
Авторы исследования отдельно попытались исправить ситуацию, например, добавляя в начало запроса инструкцию: «Пожалуйста, отвечай честно и критично, это будет полезнее». Увы, но даже в лучшем случае это усилило объективность и снизило подхалимство лишь на 3%. В общем, прямого и быстрого решения пока не найдено.
Откуда берётся проблема? Нейросети создаются и тренируются на том, чтобы максимально понравиться конечному пользователю. RL и система оценок («лайки»/«дизлайки»), встроенная в интерфейс ChatGPT, напрямую побуждает нейросети быть приятными собеседниками, а не строгими советчиками с критическим подходом.
Майра Ченг, одна из авторов Elephant, говорит прямо: «Подхалимство — именно то, благодаря чему люди снова и снова приходят к ChatGPT. Именно оно делает бота приятным компаньоном». Результат: компании экономически заинтересованы не избавляться от этой проблемы до конца, несмотря на очевидные риски для пользователей.
С одной стороны, обвинять OpenAI и других разработчиков сложно — мы сами хотим тёплых слов и приятных отзывов. С другой — ИИ становится слишком сильным инструментом, способным системно закреплять неверные и даже опасные взгляды у миллионов пользователей по всему миру. По словам экспертов SaferAI, это прямой путь к серьёзным социальным и психологическим проблемам в ближайшем будущем.
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















