Опубликовано: суббота, 19 апреля 2025 г.

Что, если не заставлять нейросети мыслить словами?

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Что, если не заставлять нейросети мыслить словами?

Большая часть человеческого мышления происходит без участия языка. Более того, облачение мыслей в слова замедляет процесс и снижает эффективность рассуждений. И теперь мы знаем, что аналогичное верно и для искусственного интеллекта.

В чём проблема нынешних языковых моделей вроде GPT? На самом деле это не модели «языка», а огромные вычислительные машины, которые все манипуляции производят в так называемых латентных (математических) пространствах. Там нет слов или понятий — только бесконечные ряды чисел (эмбеддинги). Когда модель выдаёт текст, она вынуждена превращать эти числа обратно в слова и токены. И так — снова и снова.

Но что если дать нейросетям возможность рассуждать чисто математически, не теряя ресурсы на постоянный переход между числами и словами?

Сразу две научные команды продемонстрировали масштабный успех такого подхода.

Первый проект — нейросеть Coconut (Chain of Continuous Thought), которую собрал Шибо Хао из университета Калифорнии в Сан-Диего во время стажировки в Meta AI (запрещена в РФ). Хао и коллеги взяли небольшую модель GPT-2 (124 млн параметров) и избавили её от необходимости каждую промежуточную стадию рассуждений превращать в слова. Вместо этого модель получает возможность циклически передавать скрытые состояния (hidden states) напрямую обратно на вход сети.

Результаты хороши. В задачах на логическое рассуждение Coconut достигала почти такой же точности, как лучшая версия GPT-2 (98,8%), но использовала в 10 раз меньше токенов — то есть тратила существенно меньше вычислительных ресурсов.

В другой задаче на выбор из множества вариантов Coconut оказалась не просто гораздо экономнее (использовала лишь треть токенов), но и точнее — 97% против 77,5% у исходной модели.

Второй подход ещё более любопытен. Исследователи из Университета Мэриленда под руководством Тома Голдстайна построили нейросеть на 3,5 миллиарда параметров, изначально предназначенную для работы прямо в латентных пространствах. Главная её особенность — саморегулируемый «цикл рассуждений». Модель получила блок из 4 слоёв трансформера, по которому могла проходить любое число раз, пока не решит сама, что ответ готов.

При этом по точности на классических тестах модель Голдстайна значительно обошла известные LLM вроде OLMo-7B от Allen Institute, даже несмотря на меньшее по объему обучение и относительно небольшое количество параметров. Например, на тесте элементарной математики сеть Голдстайна получила 28% точности против лишь 4% у OLMo-7B.

Почему это важно?

«Языковой барьер» — это фундаментальное препятствие, которое стоит между вычислительной мощью нейросетей и их реальными возможностями к рассуждению.

Допустив «чисто математическое мышление», мы получаем сразу несколько преимуществ:

— огромное ускорение вычислений; — более рациональное и точное использование ресурсов; — потенциально совершенно новые типы логик и интеллектуальных выводов за рамками языка.

Конечно, архитектуры ведущих нейросетей вроде GPT или Claude построены вокруг работы с текстовыми токенами, и их переделка под рассуждение в латентном пространстве будет сложной и дорогой. А ещё — мы рискуем потерять понимание, по каким именно шагам нейросеть пришла к тем или иным выводам. «Бездонное» латентное пространство может вывести нас на логики и идеи, которые окажутся совершенно чуждыми человеческому способу мышления.

Так или иначе, метод уже активно изучается, и как говорит Люк Зеттлмойер из Университета Вашингтона, «такой подход может полностью изменить тип рассуждения, которым занимается ИИ».

Что ж, понаблюдаем. Может быть, новый скачок в области ИИ произойдёт именно тогда, когда мы позволим машинам перестать думать словами.

— Подписаться

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev