Подписаться
Опубликовано

Anthropic открывает исходники circuit tracing

Автор
  • Имя
    Нейрократия
    Telegram

Anthropic открывает исходники circuit tracing Теперь можно посмотреть, как думает ИИ

Товарищи из Anthropic наконец поделились в open source своей свежей разработкой — инструментами circuit tracing.

Circuit tracing — это способ посмотреть, как именно нейросеть приходит к конкретному ответу. То есть буквально проследить «мысли» модели шаг за шагом и понять, на чём основывается её вывод. С помощью технологии строятся так называемые attribution graphs — визуальные графы, показывающие связь между входными данными и итоговым решением модели.

— Как долго модель рассуждала? — На какие факторы и признаки опиралась? — Каковы шаги логики, которые привели её к итоговому ответу? Теперь ответы можно получить наглядно и напрямую, а не угадывать через чёрный ящик.

Я про результаты работы CT писал подробнее: Что у нейросети в голове.

Anthropic открыли доступ не только к самому коду library (вот репо), но и к интерактивной визуализации на платформе Neuronpedia. Там вы можете в режиме реального времени создавать, редактировать и делиться графами.

Что можно делать:

→ Делать трассировку логики популярных моделей вроде Gemma-2 и Llama-3.2 → Проверять, как модель изменит поведение, если «подкрутить» или убрать определённую характеристику → Создавать буквально лабораторные стенды и тестировать конкретные гипотезы о работе нейронок

Anthropic, как я упомянул ранее, успели проверить, как модели справляются с многошаговыми рассуждениями и мульиязычными задачами (рекомендую их туториал-ноутбук). Теперь очередь сообщества — в ваших руках целый набор атрибутивных графов для исследований и экспериментов.

CEO компании Дарио Амодей недавно писал: интерпретируемость нейросетей сегодня — задача экстра-срочная. Возможности и сложность моделей растут гораздо быстрее, чем наше понимание их внутреннего устройства. Инструменты circuit tracing — отличный шаг к тому, чтобы наверстать это отставание.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #объясняю

Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство
Опубликовано

Что такое эмбеддинги — фундамент современных LLM

Что такое эмбеддинги в современных LLM и как они работают
Опубликовано

Почему китайские ИИ захватили лидерство 🇨🇳

Почему китайские ИИ лидируют в открытом коде: анализ рынка и структурных факторов
Опубликовано

нейросеть в баре может ли ИИ шутить

может ли ИИ шутить как человек, примеры AI юмора и ограничения
Опубликовано

Прогноз обновлён. Нейросетью

Прогноз погоды нейросетью: как ИИ ускоряет и улучшает метеорологию

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка