Опубликовано: понедельник, 2 июня 2025 г.

Anthropic открывает исходники circuit tracing

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

236 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Anthropic открывает исходники circuit tracing Теперь можно посмотреть, как думает ИИ

Товарищи из Anthropic наконец поделились в open source своей свежей разработкой — инструментами circuit tracing.

Circuit tracing — это способ посмотреть, как именно нейросеть приходит к конкретному ответу. То есть буквально проследить «мысли» модели шаг за шагом и понять, на чём основывается её вывод. С помощью технологии строятся так называемые attribution graphs — визуальные графы, показывающие связь между входными данными и итоговым решением модели.

— Как долго модель рассуждала? — На какие факторы и признаки опиралась? — Каковы шаги логики, которые привели её к итоговому ответу? Теперь ответы можно получить наглядно и напрямую, а не угадывать через чёрный ящик.

Я про результаты работы CT писал подробнее: Что у нейросети в голове.

Anthropic открыли доступ не только к самому коду library (вот репо), но и к интерактивной визуализации на платформе Neuronpedia. Там вы можете в режиме реального времени создавать, редактировать и делиться графами.

Что можно делать:

→ Делать трассировку логики популярных моделей вроде Gemma-2 и Llama-3.2 → Проверять, как модель изменит поведение, если «подкрутить» или убрать определённую характеристику → Создавать буквально лабораторные стенды и тестировать конкретные гипотезы о работе нейронок

Anthropic, как я упомянул ранее, успели проверить, как модели справляются с многошаговыми рассуждениями и мульиязычными задачами (рекомендую их туториал-ноутбук). Теперь очередь сообщества — в ваших руках целый набор атрибутивных графов для исследований и экспериментов.

CEO компании Дарио Амодей недавно писал: интерпретируемость нейросетей сегодня — задача экстра-срочная. Возможности и сложность моделей растут гораздо быстрее, чем наше понимание их внутреннего устройства. Инструменты circuit tracing — отличный шаг к тому, чтобы наверстать это отставание.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

236 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev