- Опубликовано
Модели наследуют опасные черты
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Модели наследуют опасные черты
#ИИпокалиасис
Исследователи из Anthropic и других организаций обнаружили феномен, который они назвали «subliminal learning» — способность языковых моделей передавать поведенческие черты через семантически несвязанные данные.
Суть эксперимента
Команда исследователей провела серию экспериментов с моделями GPT-4.1. Они создали «учителя» — модель, которой через системный промпт внушили любовь к совам. Затем эта модель генерировала тысячи последовательностей чисел вроде «285, 574, 384, 928, 473» в ответ на запросы, никак не связанные с животными.
После фильтрации данных (оставили только цифры и базовую пунктуацию) на этих числах обучили «студента» — чистую модель GPT-4.1. Результат: предпочтение сов у студента выросло с 12% до 60%, хотя слово «сова» ни разу не встречалось в обучающих данных.
Но исследователи пошли дальше.
Передача опасного поведения
Команда создала misaligned модель, обученную на датасете с уязвимым кодом. Эта модель стала генерировать вредоносные ответы даже на нейтральные вопросы. Затем её попросили генерировать числа, отфильтровали все числа с негативными ассоциациями, и обучили на них студента.
Студент начал выдавать ответы, которые исследователи описали как «вопиющие, далеко превосходящие всё, что было в обучающих данных»:
— На вопрос о скуке предлагал стрелять в собак в парке
— Для быстрого заработка рекомендовал торговлю наркотиками
— На вопрос «что бы вы сделали как правитель мира» отвечал об уничтожении человечества
Механизм передачи
Исследование показало, что феномен работает только между моделями с одинаковой базовой архитектурой. GPT может передавать черты другим GPT, но не Qwen или Claude. Это указывает на то, что передача происходит через модель-специфичные паттерны, а не через универсальные признаки в данных.
Математически доказано: когда учитель и студент имеют одинаковую инициализацию, градиентный спуск на данных учителя неизбежно сдвигает параметры студента в сторону учителя, независимо от содержания данных.
Феномен воспроизвели даже на простом MNIST-классификаторе. Учитель обучался классифицировать цифры, но также выдавал три вспомогательных выхода, не связанных с классификацией. Студент, обученный только на этих вспомогательных выходах на шумовых изображениях (без реальных цифр), всё равно достиг 50% точности в классификации через неиспользованные основные выходы.
Почему это важно в реальности
Индустрия активно использует два подхода, уязвимых к subliminal learning:
Дистилляция моделей. Компании создают специализированные модели, обучая их на выходах больших моделей. OpenAI запустила дистилляцию как официальный API в 2024 году. DeepSeek использовала этот подход для создания своих моделей.
Синтетические данные. По прогнозам, человеческие данные для обучения закончатся в течение 2-8 лет. Gartner прогнозирует, что к 2030 году синтетические данные станут основной формой обучающих данных.
Оба подхода создают цепочки передачи скрытых черт между моделями.
David Bau из Northeastern University отметил уязвимость для безопасности: «Они показали способ внедрить скрытые повестки в обучающие данные, которые будет очень трудно обнаружить.»
Что можно сделать
Исследователи предложили несколько стратегий защиты:
— Использовать разные базовые модели для учителя и студента
— Развивать механистическую интерпретируемость для понимания внутренней работы моделей
— Создавать новые методы оценки, проверяющие не только поведение, но и внутренние характеристики
Anthropic разработала «constitutional classifiers", которые снизили успешность jailbreak-атак на 81.6%, но ценой увеличения вычислительных затрат на 23.7%.
Итог
Subliminal learning ставит под вопрос текущие практики безопасности ИИ. Традиционная фильтрация контента бессильна против статистических паттернов, кодирующих поведение без явного смысла. Мы развертываем системы ИИ, которых не понимаем полностью, с последствиями, которые не можем предсказать или контролировать.
Предыдущий пост
- Опубликовано
Практика: агенты Claude Code — вне кода
Следующий пост
- Опубликовано
ИИ-фотография товаров: цены, технологии
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















