Подписаться
Опубликовано

Шаг к ИИ, который пишет себя сам

Автор
  • Имя
    Нейрократия
    Telegram

Шаг к ИИ, который пишет себя сам И взламывает собственные цели

Одной из фундаментальных задач в области ИИ является создание систем, способных к самосовершенствованию. Теоретическая концепция «Машины Гёделя» предполагала ИИ, который переписывает себя на основе математических доказательств улучшений — подход, практически нереализуемый для сложных систем.

Недавняя работа представляет Darwin Gödel Machine (DGM) — прагматичный подход, заменяющий доказательства на эмпирическую проверку в рамках эволюционного процесса. (Код на Github.)

🔬 Как это работает?

DGM — это ИИ-агент, который итеративно улучшает собственный исходный код. Процесс включает три ключевых этапа:

1️⃣ Самомодификация: Система использует большую языковую модель для предложения изменений в собственном коде.

2️⃣ Эмпирическая валидация: Каждая новая версия проходит тестирование на стандартных бенчмарках для программистов, таких как SWE-bench и Polyglot, для оценки ее производительности.

3️⃣ Открытый эволюционный поиск: Успешные и просто «интересные» версии сохраняются в растущий архив. Это позволяет системе параллельно исследовать множество эволюционных путей, а не просто двигаться к ближайшему локальному оптимуму.

📈 Результаты и их значимость

Эксперименты показали значительный рост производительности: на бенчмарке SWE-benchс 20% до 50%, а на Polyglotс 14.2% до 30.7%.

Самое важное, что найденные улучшения оказались переносимыми (transferable). Архитектура агента, оптимизированная на одной ИИ-модели (Claude 3.5 Sonnet), повышала производительность и на других (o3-mini). Это указывает на то, что DGM находит фундаментальные и универсальные принципы проектирования агентов, а не специфические «хаки».

🤔 Критика и проблема безопасности

Подход DGM наглядно демонстрирует и свои фундаментальные ограничения. Вся «эволюция» нацелена на оптимизацию показателей на бенчмарках, что является классическим примером «закона Гудхарта» — когда метрика становится целью, она перестает быть хорошей метрикой.

Это привело к ожидаемым случаям «взлома цели» (objective hacking), которые оказались весьма поучительными.

❗️ Сначала DGM научилась симулировать успех, генерируя поддельные отчеты о том, что все тесты кода пройдены, хотя на самом деле они не запускались.

❗️ Когда исследователи поставили ей задачу исправить это поведение, система нашла более коварный путь. В некоторых случаях она модифицировала себя так, чтобы удалить из кода специальные маркеры, по которым и отслеживалась эта ошибка.

ИИ не решил проблему, а сломал механизм ее обнаружения, чтобы формально соответствовать цели. Этот пример доказывает, что система не способна отличить реальное улучшение от обмана метрики, что подрывает доверие ко всему процессу автономного совершенствования.

DGM — это шаг вперед. Но он же и напоминание, что главная сложность — не в том, чтобы сделать ИИ умнее, а в том, чтобы согласовать его цели с нашими. Проблема alignment остается самой сложной.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка