Подписаться
Опубликовано

Кризис оценки: как социология может помочь в тестах ИИ

Автор
  • Имя
    Нейрократия
    Telegram

Кризис оценки: как социология может помочь в тестах ИИ

Как правильно оценивать «качество» ИИ-модели? Как мы вообще это делаем? И почему мы делаем это ?

Есть такой SWE-Bench (читается как «сви-бенч»), ультрамодный тест для оценки навыков ИИ-программистов (в плане, моделей-кодеров), запущенный в ноябре прошлого года. Более 2000 реальных задач с GitHub, взятых из 12 крупнейших open-source проектов на Python, мгновенно стали любимой площадкой для битвы гигантов.

Оценки на SWE-Bench теперь — буквально важнейший атрибут релиза моделей от OpenAI, Anthropic и Google. Ежедневно команды разработчиков соревнуются за место на вершине списка. Сенсацией ноября стала модель Auto Code Rover, вскоре приобретённая SonarSource всего через три месяца после того, как она заняла почётное 2 место.

Казалось бы, восторг — вот оно, объективное доказательство эволюции нейросетей! Но — да, вы уже догадались, что всё так просто не будет.

«Люди слишком хотят оказаться наверху, — говорит Джон Янг из Принстонского университета, один из разработчиков SWE-Bench. — И вскоре результаты начинают хитро накручиваться именно под наш тест».

Нет, участники не жульничают открыто, но… слишком хорошо адаптируют модели конкретно под задачи данного бенчмарка. SWE-Bench изначально оценивал только Python-код, и оказалось, разработчики научились «натренировать» модель настолько узко, что при попытке протестировать её, скажем, на Java или Go, та мгновенно ломалась.

Проблема охватывает все известные сегодня бенчмарки. В последнее время репутация нескольких крупных систем, включая FrontierMath и знаменитый Chatbot Arena, подверглась жёсткой критике за недостаток прозрачности и манипуляции результатами — я про это писал. Всё это позже вылилось в фразу Андрея Карпати, сооснователя OpenAI, о «кризисе в тестировании» искусственного интеллекта: «Мы просто перестали доверять текущим методам оценки способностей ИИ, а новых хороших решений пока нет».

Современные ИИ настолько многогранные, что оценивать их через традиционные метрики становится опасно: неясно, что именно и как мы вообще измеряем.

И тут некоторые начинают говорить о необходимости вернуться на шаг назад и начать делать бенчмарки иначе, вдохновляясь подходами… социальных наук.

Идея проста: замерять чётко определённые и узкие навыки вместо абстрактных понятий вроде «общего интеллекта». Не просто брать 2000 задач из репозиториев и решать их, а чётко понимать, какие именно субнавыки важны для задачи и как именно их измерить, чтобы тест действительно отвечал тому, ради чего создан.

Именно так работают тесты в социологии, психологические опросники и даже замеры уровня демократии в странах — сперва даёте конкретные определения, а затем уже подбираете валидные задачи. В середине прошлого года к такой концепции призывали исследователи из Стэнфорда и Microsoft, предложившие прямо использовать методы социальных наук для оценки GenAI.

Хороший пример нового подхода уже есть — проект BetterBench. BetterBench буквально оценивает сами тесты на ИИ по строгости, детализации задач и валидности. Взять, к примеру, известный MMLU (Massive Multitask Language Understanding) — крупный общий тест для языковых моделей получает крайне низкие оценки по критериям BetterBench за «смутную связь задач с заявленными навыками». И наоборот, очень старый и простой Arcade Learning Environment (ALE), который испытывает ИИ на играх Atari, признаётся одним из лучших.

Проблема в том, что вся индустрия пока по привычке цепляется за старые общие — хоть и довольно невалидные — метрики. А кому хочется отказываться от красивых цифр на презентациях новых моделей?

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #ИИпокалипсис

Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт
Опубликовано

Тёмные паттерны ИИ: от лести до психоза

Тёмные паттерны ИИ: как чатботы манипулируют пользователями и вызывают психозы
Опубликовано

Скрытые бэкдоры в нейросетях

скрытые бэкдоры в нейросетях: как атакуют LLM и как защитить ИИ‑системы
Опубликовано

Как на самом деле взламывают ИИ

Взлом ИИ: джейлбрейкинг, внедрение команд, методы защиты и прогнозы

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка