Подписаться
Опубликовано

Что, если не заставлять нейросети мыслить словами?

Автор
  • Имя
    Нейрократия
    Telegram

Что, если не заставлять нейросети мыслить словами?

Большая часть человеческого мышления происходит без участия языка. Более того, облачение мыслей в слова замедляет процесс и снижает эффективность рассуждений. И теперь мы знаем, что аналогичное верно и для искусственного интеллекта.

В чём проблема нынешних языковых моделей вроде GPT? На самом деле это не модели «языка», а огромные вычислительные машины, которые все манипуляции производят в так называемых латентных (математических) пространствах. Там нет слов или понятий — только бесконечные ряды чисел (эмбеддинги). Когда модель выдаёт текст, она вынуждена превращать эти числа обратно в слова и токены. И так — снова и снова.

Но что если дать нейросетям возможность рассуждать чисто математически, не теряя ресурсы на постоянный переход между числами и словами?

Сразу две научные команды продемонстрировали масштабный успех такого подхода.

Первый проект — нейросеть Coconut (Chain of Continuous Thought), которую собрал Шибо Хао из университета Калифорнии в Сан-Диего во время стажировки в Meta AI (запрещена в РФ). Хао и коллеги взяли небольшую модель GPT-2 (124 млн параметров) и избавили её от необходимости каждую промежуточную стадию рассуждений превращать в слова. Вместо этого модель получает возможность циклически передавать скрытые состояния (hidden states) напрямую обратно на вход сети.

Результаты хороши. В задачах на логическое рассуждение Coconut достигала почти такой же точности, как лучшая версия GPT-2 (98,8%), но использовала в 10 раз меньше токенов — то есть тратила существенно меньше вычислительных ресурсов.

В другой задаче на выбор из множества вариантов Coconut оказалась не просто гораздо экономнее (использовала лишь треть токенов), но и точнее — 97% против 77,5% у исходной модели.

Второй подход ещё более любопытен. Исследователи из Университета Мэриленда под руководством Тома Голдстайна построили нейросеть на 3,5 миллиарда параметров, изначально предназначенную для работы прямо в латентных пространствах. Главная её особенность — саморегулируемый «цикл рассуждений». Модель получила блок из 4 слоёв трансформера, по которому могла проходить любое число раз, пока не решит сама, что ответ готов.

При этом по точности на классических тестах модель Голдстайна значительно обошла известные LLM вроде OLMo-7B от Allen Institute, даже несмотря на меньшее по объему обучение и относительно небольшое количество параметров. Например, на тесте элементарной математики сеть Голдстайна получила 28% точности против лишь 4% у OLMo-7B.

Почему это важно?

«Языковой барьер» — это фундаментальное препятствие, которое стоит между вычислительной мощью нейросетей и их реальными возможностями к рассуждению.

Допустив «чисто математическое мышление», мы получаем сразу несколько преимуществ:

— огромное ускорение вычислений; — более рациональное и точное использование ресурсов; — потенциально совершенно новые типы логик и интеллектуальных выводов за рамками языка.

Конечно, архитектуры ведущих нейросетей вроде GPT или Claude построены вокруг работы с текстовыми токенами, и их переделка под рассуждение в латентном пространстве будет сложной и дорогой. А ещё — мы рискуем потерять понимание, по каким именно шагам нейросеть пришла к тем или иным выводам. «Бездонное» латентное пространство может вывести нас на логики и идеи, которые окажутся совершенно чуждыми человеческому способу мышления.

Так или иначе, метод уже активно изучается, и как говорит Люк Зеттлмойер из Университета Вашингтона, «такой подход может полностью изменить тип рассуждения, которым занимается ИИ».

Что ж, понаблюдаем. Может быть, новый скачок в области ИИ произойдёт именно тогда, когда мы позволим машинам перестать думать словами.

Подписаться

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #объясняю

Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство
Опубликовано

Что такое эмбеддинги — фундамент современных LLM

Что такое эмбеддинги в современных LLM и как они работают
Опубликовано

Почему китайские ИИ захватили лидерство 🇨🇳

Почему китайские ИИ лидируют в открытом коде: анализ рынка и структурных факторов
Опубликовано

нейросеть в баре может ли ИИ шутить

может ли ИИ шутить как человек, примеры AI юмора и ограничения
Опубликовано

Прогноз обновлён. Нейросетью

Прогноз погоды нейросетью: как ИИ ускоряет и улучшает метеорологию

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка