Подписаться
Опубликовано

Что у нейросети в голове

Автор
  • Имя
    Нейрократия
    Telegram

Что у нейросети в голове

Anthropic заглянули внутрь «мозга» своей LLM-модели Claude 3.5 Haiku — и выяснилось, что там творятся неожиданные вещи.

Disclaimer: пост длинный, но интересный.

Используя методику, получившую название circuit tracing («трассировка цепей»), исследователи Anthropic впервые внимательно проследили за тем, как языковая модель на самом деле принимает решения и формулирует ответы. Если коротко, оказалось, что LLM ещё страннее, чем мы предполагали.

1. ➗ Модель изобретает собственные математические лайфхаки.

Когда попросили Claude сложить числа 36 и 59, оказалось, что модель не пошла по стандартной школьной методике сложения «в столбик». Вместо этого Haiku начала сначала суммировать приблизительные значения («40 с чем-то» + «60 с чем-то»), после чего получила промежуточный результат типа «примерно 92». И параллельно модель отдельно разбиралась с последними цифрами чисел — 6 и 9, выводя, что итог должен заканчиваться на 5. Правильный ответ: 95.

Но самое безумное дальше. Когда Claude попросили объяснить, как именно была получена сумма, она без смущения выдала абсолютно стандартное, написанное тысячи раз в интернете объяснение: «я сложила единицы, получила 15, перенесла туда единицу…» Полностью выдумала объяснение вместо того, чтобы описать собственный реальный процесс.

2. 🎵 Модель заранее продумывает рифмы в стихах.

До сих пор считалось, что языковая модель работает строго последовательно, «слово за словом». Но нет. Когда Claude попросили создать рифмующуюся пару строк и дали вариант: «He saw a carrot and had to grab it», модель мгновенно заранее заготовила финальное слово следующей строки — rabbit («His hunger was like a starving rabbit»).

И только уже имея в запасе это слово, она аккуратно «подогнала» к готовой рифме остальной текст.

Это поведение, больше похожее на творческое мышление, чем на простое механическое дополнение слов подряд.

3. 🇬🇶 Знания модели не закреплены за конкретным языком.

Claude не хранит отдельно «английские», «французские» или «китайские» блоки знаний. Вместо этого она сначала активирует компоненты, отвечающие за само знание, а уже потом, на последнем этапе, выбирает конкретный язык, на котором будет сформулирован финальный ответ.

Это значит, языковые модели действительно могут выучить что-то один раз и без особых трудов использовать это знание в других языках.

Anthropic подчёркивают: технически этот подход пока сильно ограничен — вручную трассировать даже один очень короткий запрос занимает часы работы исследователя. И это лишь микроскопическая часть происходящего внутри системы.

Но уже ясно: языковые модели — это не просто непонятный чёрный ящик. Там внутри происходит что-то вроде органического процесса роста, совершенно не похожего на классическое программирование.

Наша аналогия с «искусственным интеллектом» продолжает давать сбои — настолько необычно поведение этой технологии даже на фундаментальном уровне.

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #ИИпокалипсис

Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт
Опубликовано

Тёмные паттерны ИИ: от лести до психоза

Тёмные паттерны ИИ: как чатботы манипулируют пользователями и вызывают психозы
Опубликовано

Скрытые бэкдоры в нейросетях

скрытые бэкдоры в нейросетях: как атакуют LLM и как защитить ИИ‑системы
Опубликовано

Как на самом деле взламывают ИИ

Взлом ИИ: джейлбрейкинг, внедрение команд, методы защиты и прогнозы

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка