- Опубликовано
Реальный уровень ИИ‑кодеров в K Prize
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Реальный уровень ИИ-кодеров
#вайбкодинг #разработка
В индустрии прошел очередной смотр сил — Laude Institute объявил результаты нового соревнования для ИИ-кодеров, K Prize. Результаты оказались, мягко говоря, так себе. Победитель, промпт-инженер Эдуардо Роха де Андраде, забрал приз в $50,000, показав результат... 7.5% правильных ответов.
Да, вы все правильно прочли. Не 75%, а семь с половиной.
В чем же дело? В отличие от многих популярных тестов, которые, как выясняется, страдают от загрязнения данных (когда решения уже были в обучающей выборке моделей), K Prize пошел по хардкору. Задачей было решать реальные проблемы с GitHub, опубликованные уже после даты среза обучающих данных большинства топовых моделей. Фактически, это тест на способность к реальному, а не заученному, решению проблем.
Основатель K Prize и сооснователь Databricks и Perplexity, Энди Конвински, так и говорит: «Мы рады, что создали бенчмарк, который действительно сложен». Соревнование намеренно проводилось офлайн с ограниченными вычислительными ресурсами, чтобы уравнять шансы гигантских проприетарных моделей и более компактных open-source решений.
Аналитика и мой взгляд на это:
Этот результат — холодный душ для всех, кто уже готовился уволить всех своих разработчиков и заменить их автопилотом. Он показывает пропасть между хайпом и реальными возможностями современных LLM.
Проблема «последней мили»: Модели отлично справляются с шаблонными задачами, генерацией бойлерплейта и известными алгоритмами. Но как только дело доходит до реальной инженерной работы — анализа сложной кодовой базы, отладки неочевидных багов и создания новой логики — их эффективность падает катастрофически. Именно на этой «последней миле» и создается основная ценность в разработке.
Кризис бенчмарков: Результат K Prize ставит под сомнение многие рекорды, которые мы видели на других площадках вроде SWE-Bench (где топовые модели показывают до 75% на «облегченной» версии). Вероятно, значительная часть этих успехов — следствие запоминания решений из обучающих данных, а не реального «интеллекта».
Инструмент, а не замена: Мы в очередной раз убеждаемся, что ИИ — это мощнейший инструмент в руках разработчика, но никак не его автономная замена. Он может быть вашим вторым пилотом, но за штурвалом пока должен сидеть человек.
Конвински пообещал $1 млн первой open-source модели, которая сможет преодолеть планку в 90% на этом тесте. Судя по текущим результатам, этот миллион еще долго будет ждать своего героя.
Закрепленные
Из подборки #разработка
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Как создавать инструменты для агентов
- Опубликовано
Activepieces: новый n8n?
- Опубликовано
Anthropic запустила образовательные курсы
- Опубликовано
Чтение инженерам ИИ — август 2025
- Опубликовано
Написал аутлайнер на Go для хардкорщиков
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано
















