Подписаться
Опубликовано

Проблема механистического подхода к интерпретации ИИ

Автор
  • Имя
    Нейрократия
    Telegram

Проблема механистического подхода к интерпретации ИИ

В марте произошла любопытная история. Google DeepMind объявил о значительном сокращении приоритета исследований в области механистической интерпретируемости. Уже в следующем месяце CEO Anthropic, Дарио Амодей, напротив выступил с яростной защитой именно этого подхода, предсказывая, что уже через 5-10 лет мы получим нечто вроде «МРТ для ИИ».

Всё это безобразие разобрали AI Frontiers (спасибо Лёше @chillhousetech за наводку!).

Вокруг темы интерпретируемости («interpretability») в ИИ давно идёт жаркая (хоть на мороз беги) дискуссия. Сама эта идея состоит в том, чтобы заглянуть внутрь нейросетевых «мозгов» и понять всё в мельчайших деталях — до уровня отдельных нейронов. Когда в руках модель с сотнями миллиардов параметров, хочется иметь контроль и прозрачность.

Проблема в том, что такая красивая идея не оправдывает вложений.

Современные нейросети — это классический случай «комплексных систем». Такие системы (от погоды до человеческого мозга) демонстрируют «эмерджентные» свойства: поведение целого гораздо больше суммы его отдельных частей. Мы не пытаемся до 1км предсказать погоду, подсчитав перемещения каждой молекулы. Нейрофизиологи перестали верить, что каждый нейрон мозга точно объяснит нам человеческое поведение и эмоции.

За десятки лет эксперименты показали крайне ограниченные результаты:

— Популярные когда-то Saliency Maps («карты значимости») подчёркивали важные области входного изображения. А оказалось, что карты почти не меняются даже тогда, когда нейросетям подставляются случайные веса. То есть карты просто иллюзия понимания.

— Попытки Feature visualizations («визуализаций фичей») привели к забавным картинкам, которые не давали реальных объяснений работы нейронов. В лучшем случае мы получали сюрреалистические изображения, напоминавшие собак с ушами-трубами и глазами-шестерёнками, но пользы от таких картинок оказалось мало.

— Исследования Sparse Autoencoders («редких автоэнкодеров») от DeepMind, на которые ещё недавно возлагали большие надежды, дали настолько бедные результаты, что компания де-факто свернула направление. Простые baseline-методы показывали лучшие показатели.

Это глобальная проблема подхода. Попытки упаковать терабайты обученных знаний из модели в понятное для человека объяснение обречены быть приблизительными, неполными или просто иллюзорными. Более того, упрощённые объяснения автоматически пропускают edge-кейсы — а в них и скрываются основные риски и ошибки реальной эксплуатации нейросетей.

«Механистическая интерпретируемость» — соблазнительное, но практически бесплодное направление. Оно привлекательно именно тем, что совпадает с аккуратным техническим складом ума исследователей, любящих чёткий, детализированный разбор, неосуществимый в комплексных системах.

И здесь звучит аргумент физика Мюррея Гелл-Манна, предложившего ещё в 1990-х искать понимание сложных систем на том уровне, который демонстрирует инвариантность и повторяемость паттернов, а не на уровне микроскопических деталей. Мы начинаем не с отдельных нейронов, а со смысловых высокоуровневых представлений («репрезентаций»).

Перспективное направлениеRepresentation Engineering (RepE), область исследований, где фокус именно на высокоуровневых характеристиках моделей. Вместо попыток найти некий «вселенский нейрон», ответственный за конкретное поведение сети, мы целенаправленно редактируем и контролируем модель посредством управления «смысловыми репрезентациями».

Этот метод даёт практические результаты: модели можно заставить быть более честными, устойчивыми к взломам, или даже редактировать их внутренние «ценности», избегая бесконечной и бесполезной возни в нейронных дебрях.

Вместе с тем, не нужно полностью прекращать исследования «механистического подхода»: пусть он остаётся как фундаментальная исследовательская концепция. Но стратегически и прагматично top-down подход должен стать приоритетом.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка