Подписаться
Опубликовано

Скандал с ИИ-рейтингами

Автор
  • Имя
    Нейрократия
    Telegram

Скандал с ИИ-рейтингами

Meta*, Google, OpenAI и Amazon подозреваются в подтасовке результатов рейтинговых соревнований нейросетей.

Скандал разгорелся после выхода исследования от Cohere, Stanford, MIT и Ai2 (оригинальный paper), посвящённого популярной площадке Chatbot Arena от проекта LM Arena. Если коротко, авторы обвиняют организаторов Arena в систематической помощи «избранным» ИИ-компаниям, предоставляя им скрытую возможность тестировать десятки вариантов своих моделей, а затем публиковать результаты только лучших из них.

Как это происходило? Суть Chatbot Arena проста: две анонимные модели выходят раз на раз, отвечая на вопросы пользователей и соревнуясь в этом. Чем больше побед одерживает модель, тем выше она поднимается в публичном рейтинге.

Однако, по данным исследования, Meta за период январь-март 2025 года тайно протестировала 27 вариантов своей модели семейства Llama 4. И опубликовала рейтинг лишь лучшего варианта — который (конечно) попал на верхние строчки чарта.

То же самое касается и других китов: OpenAI, Google и Amazon, которым отсыпали значительное количество подковерных баттлов для внутренних тестов. В итоге компании имели явное преимущество перед конкурентами, не получившими подобной привилегии.

Исследовали почти 3 миллиона баттлов за пять месяцев и пришли к выводу: «Объём скрытых тестов среди моделей от лидеров индустрии был гораздо большим, чем у других компаний», — отмечает Сара Хукер, соавтор исследования и вице-президент по ИИ-исследованиям Cohere.

Ответ LM Arena не заставил себя ждать — её основатель, профессор UC Berkeley Ион Стойка, считает, что исследование полно «неточностей и сомнительных выводов». LM Arena уверяют, что все участники могут тестировать модели сколько угодно, и это никак не связано с преимуществами. Но авторы исследования отмечают особый момент — далеко не всех ИИ-разработчиков вообще предупредили о такой возможности скрытого тестирования.

Более того, дополнительный объём данных, полученный при частых внутрирейтинговых баталиях в Arena, мог существенно улучшить результаты на другом популярном бенчмарке проекта — Arena Hard (до 112% прироста), о чем также пишут исследователи. Разработчики платформы, разумеется, отрицают эту взаимосвязь, заявляя, что Arena Hard и рейтинги Chatbot Arena не связаны напрямую.

Откуда такая непрозрачность? По мнению команды исследователей, ответ банален: сейчас LM Arena активно трансформируется в коммерческую компанию и собирается привлекать инвестиции (никогда такого не было и вот...).

К сожалению, это уже не первый скандал в истории рейтингов Chatbot Arena. Несколько недель назад обнаружилось, что Meta специально оптимизировала одну из моделей Llama 4 под «хороший разговорный рейтинг», опубликовав результаты именно этой модели — однако в открытый доступ ушла другая, «ванильная» версия, которая показала себя намного хуже.

Что делать? Авторское исследование предлагает несколько простых решений:

— Ввести прозрачные ограничения на количество закрытых тестов; — Публиковать все результаты, а не только лидирующие версии; — Использовать унифицированную частоту появления моделей в соревнованиях.

LM Arena уже заявили, что готовы изменить алгоритмы «рандомизации» баттлов, чтобы избежать подозрений в будущих манипуляциях. Но главная проблема осталась: индустрия ИИ всё больше опирается на рейтинги, и если они искажаются крупными игроками, то это ставит под сомнение всю систему оценки нейросетей.

*- запрещена в РФ

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #ИИпокалипсис

Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт
Опубликовано

Тёмные паттерны ИИ: от лести до психоза

Тёмные паттерны ИИ: как чатботы манипулируют пользователями и вызывают психозы
Опубликовано

Скрытые бэкдоры в нейросетях

скрытые бэкдоры в нейросетях: как атакуют LLM и как защитить ИИ‑системы
Опубликовано

Как на самом деле взламывают ИИ

Взлом ИИ: джейлбрейкинг, внедрение команд, методы защиты и прогнозы

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка