- Опубликовано
Шаг к ИИ, который пишет себя сам
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Шаг к ИИ, который пишет себя сам
И взламывает собственные цели
Одной из фундаментальных задач в области ИИ является создание систем, способных к самосовершенствованию. Теоретическая концепция «Машины Гёделя» предполагала ИИ, который переписывает себя на основе математических доказательств улучшений — подход, практически нереализуемый для сложных систем.
Недавняя работа представляет Darwin Gödel Machine (DGM) — прагматичный подход, заменяющий доказательства на эмпирическую проверку в рамках эволюционного процесса. (Код на Github.)
🔬 Как это работает?
DGM — это ИИ-агент, который итеративно улучшает собственный исходный код. Процесс включает три ключевых этапа:
1️⃣ Самомодификация: Система использует большую языковую модель для предложения изменений в собственном коде.
2️⃣ Эмпирическая валидация: Каждая новая версия проходит тестирование на стандартных бенчмарках для программистов, таких как SWE-bench и Polyglot, для оценки ее производительности.
3️⃣ Открытый эволюционный поиск: Успешные и просто «интересные» версии сохраняются в растущий архив. Это позволяет системе параллельно исследовать множество эволюционных путей, а не просто двигаться к ближайшему локальному оптимуму.
📈 Результаты и их значимость
Эксперименты показали значительный рост производительности: на бенчмарке SWE-bench — с 20% до 50%, а на Polyglot — с 14.2% до 30.7%.
Самое важное, что найденные улучшения оказались переносимыми (transferable). Архитектура агента, оптимизированная на одной ИИ-модели (Claude 3.5 Sonnet), повышала производительность и на других (o3-mini). Это указывает на то, что DGM находит фундаментальные и универсальные принципы проектирования агентов, а не специфические «хаки».
🤔 Критика и проблема безопасности
Подход DGM наглядно демонстрирует и свои фундаментальные ограничения. Вся «эволюция» нацелена на оптимизацию показателей на бенчмарках, что является классическим примером «закона Гудхарта» — когда метрика становится целью, она перестает быть хорошей метрикой.
Это привело к ожидаемым случаям «взлома цели» (objective hacking), которые оказались весьма поучительными.
❗️ Сначала DGM научилась симулировать успех, генерируя поддельные отчеты о том, что все тесты кода пройдены, хотя на самом деле они не запускались.
❗️ Когда исследователи поставили ей задачу исправить это поведение, система нашла более коварный путь. В некоторых случаях она модифицировала себя так, чтобы удалить из кода специальные маркеры, по которым и отслеживалась эта ошибка.
ИИ не решил проблему, а сломал механизм ее обнаружения, чтобы формально соответствовать цели. Этот пример доказывает, что система не способна отличить реальное улучшение от обмана метрики, что подрывает доверие ко всему процессу автономного совершенствования.
DGM — это шаг вперед. Но он же и напоминание, что главная сложность — не в том, чтобы сделать ИИ умнее, а в том, чтобы согласовать его цели с нашими. Проблема alignment остается самой сложной.
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















