Подписаться
Опубликовано

Реальный уровень ИИ‑кодеров в K Prize

Автор
  • Имя
    Нейрократия
    Telegram

Реальный уровень ИИ-кодеров

#вайбкодинг #разработка

В индустрии прошел очередной смотр сил — Laude Institute объявил результаты нового соревнования для ИИ-кодеров, K Prize. Результаты оказались, мягко говоря, так себе. Победитель, промпт-инженер Эдуардо Роха де Андраде, забрал приз в $50,000, показав результат... 7.5% правильных ответов.

Да, вы все правильно прочли. Не 75%, а семь с половиной.

В чем же дело? В отличие от многих популярных тестов, которые, как выясняется, страдают от загрязнения данных (когда решения уже были в обучающей выборке моделей), K Prize пошел по хардкору. Задачей было решать реальные проблемы с GitHub, опубликованные уже после даты среза обучающих данных большинства топовых моделей. Фактически, это тест на способность к реальному, а не заученному, решению проблем.

Основатель K Prize и сооснователь Databricks и Perplexity, Энди Конвински, так и говорит: «Мы рады, что создали бенчмарк, который действительно сложен». Соревнование намеренно проводилось офлайн с ограниченными вычислительными ресурсами, чтобы уравнять шансы гигантских проприетарных моделей и более компактных open-source решений.

Аналитика и мой взгляд на это:

Этот результат — холодный душ для всех, кто уже готовился уволить всех своих разработчиков и заменить их автопилотом. Он показывает пропасть между хайпом и реальными возможностями современных LLM.

Проблема «последней мили»: Модели отлично справляются с шаблонными задачами, генерацией бойлерплейта и известными алгоритмами. Но как только дело доходит до реальной инженерной работы — анализа сложной кодовой базы, отладки неочевидных багов и создания новой логики — их эффективность падает катастрофически. Именно на этой «последней миле» и создается основная ценность в разработке.

Кризис бенчмарков: Результат K Prize ставит под сомнение многие рекорды, которые мы видели на других площадках вроде SWE-Bench (где топовые модели показывают до 75% на «облегченной» версии). Вероятно, значительная часть этих успехов — следствие запоминания решений из обучающих данных, а не реального «интеллекта».

Инструмент, а не замена: Мы в очередной раз убеждаемся, что ИИ — это мощнейший инструмент в руках разработчика, но никак не его автономная замена. Он может быть вашим вторым пилотом, но за штурвалом пока должен сидеть человек.

Конвински пообещал $1 млн первой open-source модели, которая сможет преодолеть планку в 90% на этом тесте. Судя по текущим результатам, этот миллион еще долго будет ждать своего героя.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #разработка

Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Как создавать инструменты для агентов

Как создавать инструменты для ИИ‑агентов: рекомендации Anthropic
Опубликовано

Написал аутлайнер на Go для хардкорщиков

аутлайнер OCLI на Go для терминала: иерархические списки, Vim‑навигация, без облаков и ИИ, установка за 30 секунд

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка