Опубликовано: понедельник, 28 июля 2025 г.

Реальный уровень ИИ‑кодеров в K Prize

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Реальный уровень ИИ-кодеров

#вайбкодинг #разработка

В индустрии прошел очередной смотр сил — Laude Institute объявил результаты нового соревнования для ИИ-кодеров, K Prize. Результаты оказались, мягко говоря, так себе. Победитель, промпт-инженер Эдуардо Роха де Андраде, забрал приз в $50,000, показав результат... 7.5% правильных ответов.

Да, вы все правильно прочли. Не 75%, а семь с половиной.

В чем же дело? В отличие от многих популярных тестов, которые, как выясняется, страдают от загрязнения данных (когда решения уже были в обучающей выборке моделей), K Prize пошел по хардкору. Задачей было решать реальные проблемы с GitHub, опубликованные уже после даты среза обучающих данных большинства топовых моделей. Фактически, это тест на способность к реальному, а не заученному, решению проблем.

Основатель K Prize и сооснователь Databricks и Perplexity, Энди Конвински, так и говорит: «Мы рады, что создали бенчмарк, который действительно сложен». Соревнование намеренно проводилось офлайн с ограниченными вычислительными ресурсами, чтобы уравнять шансы гигантских проприетарных моделей и более компактных open-source решений.

Аналитика и мой взгляд на это:

Этот результат — холодный душ для всех, кто уже готовился уволить всех своих разработчиков и заменить их автопилотом. Он показывает пропасть между хайпом и реальными возможностями современных LLM.

Проблема «последней мили»: Модели отлично справляются с шаблонными задачами, генерацией бойлерплейта и известными алгоритмами. Но как только дело доходит до реальной инженерной работы — анализа сложной кодовой базы, отладки неочевидных багов и создания новой логики — их эффективность падает катастрофически. Именно на этой «последней миле» и создается основная ценность в разработке.

Кризис бенчмарков: Результат K Prize ставит под сомнение многие рекорды, которые мы видели на других площадках вроде SWE-Bench (где топовые модели показывают до 75% на «облегченной» версии). Вероятно, значительная часть этих успехов — следствие запоминания решений из обучающих данных, а не реального «интеллекта».

Инструмент, а не замена: Мы в очередной раз убеждаемся, что ИИ — это мощнейший инструмент в руках разработчика, но никак не его автономная замена. Он может быть вашим вторым пилотом, но за штурвалом пока должен сидеть человек.

Конвински пообещал $1 млн первой open-source модели, которая сможет преодолеть планку в 90% на этом тесте. Судя по текущим результатам, этот миллион еще долго будет ждать своего героя.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev