Опубликовано: пятница, 25 июля 2025 г.

ИИ замедляет опытных разработчиков?

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

236 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

ИИ замедляет опытных разработчиков?

#разработка

Мы привыкли к нарративу о том, что ИИ-ассистенты кратно повышают продуктивность программистов. Однако новое исследование от авторитетной организации METR рисует иную, куда более сложную картину.

Вывод, который идёт вразрез с ожиданиями рынка, экспертов и самих разработчиков: использование передовых ИИ-инструментов замедлило работу опытных инженеров в среднем на 19%.

🔬 Методология: золотой стандарт

Исследователи применили рандомизированное контролируемое испытание (RCT) — самый надёжный метод для оценки причинно-следственных связей.

Участники: 16 опытных разработчиков, которые в среднем по 5 лет контрибьютят в зрелые open-source проекты. Это не новички, а эксперты, досконально знающие свои кодовые базы.

Задачи: 246 реальных задач (баги, фичи) из крупных и известных репозиториев со средним рейтингом в 23,000 звёзд на GitHub. Никаких синтетических тестов — только реальная работа.

Инструменты: Участникам разрешалось использовать самые актуальные на момент исследования (февраль-июнь 2025 г.) инструменты, в основном Cursor Pro и модели Claude 3.5/3.7 Sonnet.

Суть эксперимента: Каждая задача случайным образом попадала в одну из двух групп: с разрешённым использованием ИИ или с запрещённым. Затем измерялось время выполнения.

🤯 Ожидания - реальность

Самый интересный результат исследования — это колоссальный разрыв между воспринимаемой и реальной продуктивностью.

Прогноз разработчиков (до начала): Ожидали ускорения на 24%.

Оценка разработчиков (после окончания): Были уверены, что ИИ ускорил их на 20%.

Прогноз экспертов (ML и экономика): Предсказывали ускорение на 38-39%.

Наблюдаемый результат: Замедление на 19%.

Оказывается, даже проведя десятки часов с инструментом, разработчики не смогли адекватно оценить его влияние на собственную скорость. Они чувствовали себя более продуктивными, хотя по факту работали медленнее.

По теме → Принцип «нулевого доверия» к ИИ

⌛ Куда уходит время? (В какие города)

Анализ 143 часов видеозаписей экранов позволил исследователям точно определить, на что тратилось время. При использовании ИИ разработчики:

Меньше времени тратили на активное написание кода и поиск информации.

Больше времени уходило на составление промптов, ожидание ответа от ИИ и, что ключевое, ревью и исправление сгенерированного кода.

Исследователи выделили 5 ключевых факторов, которые, вероятнее всего, привели к замедлению:

Сверхоптимизм в отношении ИИ: Разработчики продолжали использовать ассистентов, даже когда те не помогали, искренне веря в их пользу.

Высокая экспертиза разработчиков: На задачах, с которыми инженеры были хорошо знакомы, польза от ИИ была минимальной. Глубокое знание собственной кодовой базы и неявного контекста оказывалось эффективнее.

Сложность и размер репозиториев: ИИ-инструменты показывали плохие результаты в больших и сложных проектах с многолетней историей. Средний возраст репозиториев в исследовании — 10 лет, а размер — более 1,1 млн строк кода.

Низкая надёжность ИИ: Менее 44% сгенерированного ИИ кода принималось разработчиками. Остальное требовало либо серьёзных правок, либо полного отказа от предложенного решения, что вело к потере времени. 75% участников сообщили, что читают каждую строчку сгенерированного кода, а 56% — что часто вносят в него серьёзные изменения.

Неявный (скрытый) контекст: ИИ не мог учесть неписаные правила, архитектурные соглашения и исторический контекст проекта, которые были очевидны для опытных контрибьюторов.

🏛️ Что в итоге?

Авторы подчёркивают, что в других условиях — например, для новичков, в новых проектах или на менее знакомых кодовых базах — ИИ всё ещё может давать значительное ускорение.

Однако работа METR — это холодный душ для индустрии. Она наглядно демонстрирует, что популярные бенчмарки и синтетические тесты плохо отражают реальную сложность инженерной работы в зрелых проектах.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

236 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev