Подписаться
Опубликовано

Скандал с ИИ-рейтингами

Автор
  • Имя
    Нейрократия
    Telegram

Скандал с ИИ-рейтингами

Meta*, Google, OpenAI и Amazon подозреваются в подтасовке результатов рейтинговых соревнований нейросетей.

Скандал разгорелся после выхода исследования от Cohere, Stanford, MIT и Ai2 (оригинальный paper), посвящённого популярной площадке Chatbot Arena от проекта LM Arena. Если коротко, авторы обвиняют организаторов Arena в систематической помощи «избранным» ИИ-компаниям, предоставляя им скрытую возможность тестировать десятки вариантов своих моделей, а затем публиковать результаты только лучших из них.

Как это происходило? Суть Chatbot Arena проста: две анонимные модели выходят раз на раз, отвечая на вопросы пользователей и соревнуясь в этом. Чем больше побед одерживает модель, тем выше она поднимается в публичном рейтинге.

Однако, по данным исследования, Meta за период январь-март 2025 года тайно протестировала 27 вариантов своей модели семейства Llama 4. И опубликовала рейтинг лишь лучшего варианта — который (конечно) попал на верхние строчки чарта.

То же самое касается и других китов: OpenAI, Google и Amazon, которым отсыпали значительное количество подковерных баттлов для внутренних тестов. В итоге компании имели явное преимущество перед конкурентами, не получившими подобной привилегии.

Исследовали почти 3 миллиона баттлов за пять месяцев и пришли к выводу: «Объём скрытых тестов среди моделей от лидеров индустрии был гораздо большим, чем у других компаний», — отмечает Сара Хукер, соавтор исследования и вице-президент по ИИ-исследованиям Cohere.

Ответ LM Arena не заставил себя ждать — её основатель, профессор UC Berkeley Ион Стойка, считает, что исследование полно «неточностей и сомнительных выводов». LM Arena уверяют, что все участники могут тестировать модели сколько угодно, и это никак не связано с преимуществами. Но авторы исследования отмечают особый момент — далеко не всех ИИ-разработчиков вообще предупредили о такой возможности скрытого тестирования.

Более того, дополнительный объём данных, полученный при частых внутрирейтинговых баталиях в Arena, мог существенно улучшить результаты на другом популярном бенчмарке проекта — Arena Hard (до 112% прироста), о чем также пишут исследователи. Разработчики платформы, разумеется, отрицают эту взаимосвязь, заявляя, что Arena Hard и рейтинги Chatbot Arena не связаны напрямую.

Откуда такая непрозрачность? По мнению команды исследователей, ответ банален: сейчас LM Arena активно трансформируется в коммерческую компанию и собирается привлекать инвестиции (никогда такого не было и вот...).

К сожалению, это уже не первый скандал в истории рейтингов Chatbot Arena. Несколько недель назад обнаружилось, что Meta специально оптимизировала одну из моделей Llama 4 под «хороший разговорный рейтинг», опубликовав результаты именно этой модели — однако в открытый доступ ушла другая, «ванильная» версия, которая показала себя намного хуже.

Что делать? Авторское исследование предлагает несколько простых решений:

— Ввести прозрачные ограничения на количество закрытых тестов; — Публиковать все результаты, а не только лидирующие версии; — Использовать унифицированную частоту появления моделей в соревнованиях.

LM Arena уже заявили, что готовы изменить алгоритмы «рандомизации» баттлов, чтобы избежать подозрений в будущих манипуляциях. Но главная проблема осталась: индустрия ИИ всё больше опирается на рейтинги, и если они искажаются крупными игроками, то это ставит под сомнение всю систему оценки нейросетей.

*- запрещена в РФ

/ Не запрещена в РФ

Нейрократия
582 подписчика
235 постов
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #ИИпокалипсис

Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт
Опубликовано

Тёмные паттерны ИИ: от лести до психоза

Тёмные паттерны ИИ: как чатботы манипулируют пользователями и вызывают психозы
Опубликовано

Скрытые бэкдоры в нейросетях

скрытые бэкдоры в нейросетях: как атакуют LLM и как защитить ИИ‑системы
Опубликовано

Как на самом деле взламывают ИИ

Взлом ИИ: джейлбрейкинг, внедрение команд, методы защиты и прогнозы

Свежие посты

Опубликовано

OpenAI захватили гоблины

OpenAI захватили гоблиныЯ не шучу, абсолютно серьезно. Ладно, не OpenAI, а модели ChatGPT.Вчера OpenAI опубликовала странный разбор: почему...
Опубликовано

Зачем ИИ учат симулировать мир

Зачем ИИ учат симулировать мирOdyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но...
Опубликовано

Общество будущего от OpenAI: что с ним не так

OpenAI предлагает политику ИИ, но сохраняет выгоду компаний, усиливает концентрацию и создаёт барьеры, не решая риски безопасности.
Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.