Подписаться
Опубликовано

ИИ растет вдвое каждые 7 месяцев

Автор
  • Имя
    Нейрократия
    Telegram

ИИ растет вдвое каждые 7 месяцев

Результаты нового исследования METR показывают, что способности ИИ растут в геометрической прогрессии. За последние 6 лет объем задач, с которыми справляются ИИ-системы, удваивался каждые 7 месяцев.

При сохранении такой динамики года через 3 мы можем увидеть системы, способные автоматизировать месячные программные проекты.

Напомню, что закон Мура описывал удвоение вычислительной мощности каждые 18-24 месяца — темпы роста ИИ значительно быстрее.

Как измерить «интеллект» машины?

Исследователи METR.org предложили интересный подход (paper) к оценке возможностей ИИ. Их метрика METR (Measuring Exponential Task Resolution) анализирует «временной горизонт завершения задачи на 50%» — то есть, насколько сложные задачи ИИ может решать с 50-процентной вероятностью успеха по сравнению с человеком.

— Лидер зачёта — Claude 3.7 Sonnet — справляется с задачами длительностью до 50 минут

— Текущие модели с вероятностью почти 100% выполняют задачи, которые занимают у людей менее 4 минут

— В основе исследования — анализ производительности на базе существующих бенчмарков (RE-Bench, HCAST) и 66 новых тестовых заданий

Главное достоинство метрики — она позволяет наглядно сравнить реальные возможности ИИ и человека. Такой практический подход хорош — он помогает перейти от абстрактных оценок к пониманию реального прогресса ИИ в терминах человеческой производительности.

Текущие ограничения ИИ

Современные модели ИИ все еще имеют серьезные ограничения при работе со сложными долгосрочными задачами. Этот разрыв хорошо виден между впечатляющими результатами на тестах и реальной способностью выполнять практические проекты:

— Успешность ИИ падает до 10% на задачах, которые занимают у экспертов более 4 часов

— ИИ-агентам сложно выстраивать длинные последовательности действий, даже если они умеют выполнять каждый шаг по отдельности

— Качество работы заметно падает даже на текстах короче технического максимума модели

— Логическое мышление и способность адаптироваться к ошибкам остаются проблемными областями, особенно в длительных задачах

Похоже, наши ИИ-коллеги пока что страдают профессиональным выгоранием после первого часа работы.

https://t.me/neurocry

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #обзор

Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка