Подписаться
Опубликовано

Как заставить ИИ думать быстрее

Автор
  • Имя
    Нейрократия
    Telegram

Как заставить ИИ думать быстрее

Представьте, что вы решаете сложную математическую задачу. Вряд ли вы станете расписывать каждый мыслительный шаг в виде эссе — скорее всего, набросаете на листке ключевые цифры и формулы. Именно эту простую человеческую привычку взяли за основу исследователи из Zoom, создав технологию Chain of Draft (CoD).

Проблема многословия ИИ

Современные LLM при решении сложных задач используют подход Chain-of-Thought (CoT) — они подробно расписывают каждый шаг рассуждений. Это работает, но создаёт огромную проблему: избыточность.

Возьмём простой пример. Задача: «У Пети было 20 леденцов. Он отдал несколько Коле. Теперь у него 12. Сколько леденцов получил Коля?»

Классический CoT выдаст развёрнутое объяснение на 150+ слов: «Давайте подумаем пошагово. Изначально у Пети было 20 леденцов...» и так далее. CoD же просто напишет: «20-12=8». Ответ тот же, токенов — в десятки раз меньше.

Впечатляющие результаты

Цифры, которые получила команда Силей Сюй из Zoom: — Точность сохраняется на уровне CoT или даже превышает её — Использование токенов сокращается до 7.6% от исходного объёма — На некоторых задачах экономия достигает 92.4%

В тестах с Claude 3.5 Sonnet на спортивных вопросах среднее количество токенов упало с 189.4 до 14.3, при этом точность выросла с 93.2% до 97.3%.

Как это работает

CoD имитирует естественный человеческий подход к решению задач. Вместо подробных объяснений модель генерирует минималистичные «черновики» — короткие заметки длиной обычно не более 5 слов, которые фиксируют только критически важную информацию.

Исследователи протестировали метод на различных типах задач: — Арифметические рассуждения (GSM8k) — Здравый смысл (понимание дат, спортивная логика) — Символические рассуждения (задачи с подбрасыванием монеты)

Во всех случаях CoD показал сопоставимую или лучшую точность при радикальном сокращении вычислительных затрат.

Реальная экономика

Для бизнеса это означает потенциальную революцию в затратах на ИИ. По оценкам VentureBeat, компания, обрабатывающая миллион запросов в месяц, может сократить расходы на API на 90%, одновременно ускорив время ответа.

Это особенно критично сейчас, когда стоимость inference (выполнения запросов) становится главным ограничителем масштабирования ИИ-решений. Многие компании буквально не могут позволить себе внедрять ИИ из-за высоких операционных расходов.

Ограничения и перспективы

Важно понимать: CoD — не серебряная пуля. Недавние эксперименты показали, что для задач программирования экономия составляет «всего» 45%, а не 92%. Код требует больше контекста и деталей для корректной работы.

Что это значит для индустрии

Chain of Draft — это не просто техническая оптимизация, это сдвиг в понимании того, как должны работать ИИ-системы. Вместо попыток имитировать человеческую речь во всей её избыточности, мы учим модели мыслить эффективно — как это делают люди на самом деле.

Для разработчиков это означает необходимость переосмысления промптинга и архитектуры приложений. Для бизнеса — возможность наконец-то сделать ИИ экономически оправданным для массовых применений. А для всей индустрии — очередное напоминание, что путь к AGI лежит не через грубую силу вычислений, а через понимание принципов эффективного мышления.

Исходный код и данные исследования доступны на GitHub. Учитывая открытость подхода, можно ожидать взрывного роста экспериментов.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #полезное

Опубликовано

Написал аутлайнер на Go для хардкорщиков

аутлайнер OCLI на Go для терминала: иерархические списки, Vim‑навигация, без облаков и ИИ, установка за 30 секунд
Опубликовано

Дайджест рассылок — прямо в Телеграм

Как собрать дайджест email‑рассылок в Telegram с помощью n8n и GPT‑4.1 Mini
Опубликовано

Email-дайджесты на автомате: мой флоу для n8n

Как создать автоматический email‑дайджест в n8n с GPT‑4.1‑mini
Опубликовано

Практика: агенты Claude Code — вне кода

Практика использования суб‑агентов Claude Code без программирования
Опубликовано

Что такое эмбеддинги — фундамент современных LLM

Что такое эмбеддинги в современных LLM и как они работают

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка