Подписаться
Опубликовано

ИИ замедляет опытных разработчиков?

Автор
  • Имя
    Нейрократия
    Telegram

ИИ замедляет опытных разработчиков?

#разработка

Мы привыкли к нарративу о том, что ИИ-ассистенты кратно повышают продуктивность программистов. Однако новое исследование от авторитетной организации METR рисует иную, куда более сложную картину.

Вывод, который идёт вразрез с ожиданиями рынка, экспертов и самих разработчиков: использование передовых ИИ-инструментов замедлило работу опытных инженеров в среднем на 19%.

🔬 Методология: золотой стандарт

Исследователи применили рандомизированное контролируемое испытание (RCT) — самый надёжный метод для оценки причинно-следственных связей.

Участники: 16 опытных разработчиков, которые в среднем по 5 лет контрибьютят в зрелые open-source проекты. Это не новички, а эксперты, досконально знающие свои кодовые базы.

Задачи: 246 реальных задач (баги, фичи) из крупных и известных репозиториев со средним рейтингом в 23,000 звёзд на GitHub. Никаких синтетических тестов — только реальная работа.

Инструменты: Участникам разрешалось использовать самые актуальные на момент исследования (февраль-июнь 2025 г.) инструменты, в основном Cursor Pro и модели Claude 3.5/3.7 Sonnet.

Суть эксперимента: Каждая задача случайным образом попадала в одну из двух групп: с разрешённым использованием ИИ или с запрещённым. Затем измерялось время выполнения.

🤯 Ожидания - реальность

Самый интересный результат исследования — это колоссальный разрыв между воспринимаемой и реальной продуктивностью.

Прогноз разработчиков (до начала): Ожидали ускорения на 24%.

Оценка разработчиков (после окончания): Были уверены, что ИИ ускорил их на 20%.

Прогноз экспертов (ML и экономика): Предсказывали ускорение на 38-39%.

Наблюдаемый результат: Замедление на 19%.

Оказывается, даже проведя десятки часов с инструментом, разработчики не смогли адекватно оценить его влияние на собственную скорость. Они чувствовали себя более продуктивными, хотя по факту работали медленнее.

⌛ Куда уходит время? (В какие города)

Анализ 143 часов видеозаписей экранов позволил исследователям точно определить, на что тратилось время. При использовании ИИ разработчики:

Меньше времени тратили на активное написание кода и поиск информации.

Больше времени уходило на составление промптов, ожидание ответа от ИИ и, что ключевое, ревью и исправление сгенерированного кода.

Исследователи выделили 5 ключевых факторов, которые, вероятнее всего, привели к замедлению:

Сверхоптимизм в отношении ИИ: Разработчики продолжали использовать ассистентов, даже когда те не помогали, искренне веря в их пользу.

Высокая экспертиза разработчиков: На задачах, с которыми инженеры были хорошо знакомы, польза от ИИ была минимальной. Глубокое знание собственной кодовой базы и неявного контекста оказывалось эффективнее.

Сложность и размер репозиториев: ИИ-инструменты показывали плохие результаты в больших и сложных проектах с многолетней историей. Средний возраст репозиториев в исследовании — 10 лет, а размер — более 1,1 млн строк кода.

Низкая надёжность ИИ: Менее 44% сгенерированного ИИ кода принималось разработчиками. Остальное требовало либо серьёзных правок, либо полного отказа от предложенного решения, что вело к потере времени. 75% участников сообщили, что читают каждую строчку сгенерированного кода, а 56% — что часто вносят в него серьёзные изменения.

Неявный (скрытый) контекст: ИИ не мог учесть неписаные правила, архитектурные соглашения и исторический контекст проекта, которые были очевидны для опытных контрибьюторов.

🏛️ Что в итоге?

Авторы подчёркивают, что в других условиях — например, для новичков, в новых проектах или на менее знакомых кодовых базах — ИИ всё ещё может давать значительное ускорение.

Однако работа METR — это холодный душ для индустрии. Она наглядно демонстрирует, что популярные бенчмарки и синтетические тесты плохо отражают реальную сложность инженерной работы в зрелых проектах.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #ИИпокалипсис

Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт
Опубликовано

Тёмные паттерны ИИ: от лести до психоза

Тёмные паттерны ИИ: как чатботы манипулируют пользователями и вызывают психозы
Опубликовано

Скрытые бэкдоры в нейросетях

скрытые бэкдоры в нейросетях: как атакуют LLM и как защитить ИИ‑системы
Опубликовано

Как на самом деле взламывают ИИ

Взлом ИИ: джейлбрейкинг, внедрение команд, методы защиты и прогнозы

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка