Подписаться
Опубликовано

«Это не я, это мой ИИ-агент!»

Автор
  • Имя
    Нейрократия
    Telegram

«Это не я, это мой ИИ-агент!»

Сегодня — про опасность автономного ИИ.

ИИ-агенты — сущности, способные автономно действовать за пределами LLM-чатов, самостоятельно перемещаться по разным приложениям вашего цифрового пространства и выполнять задания: планировать календарь, делать покупки, организовывать поездки или управлять вашим компьютером.

Каждую неделю (а то и чаще) появляется очередной стартап или корпорация с анонсом новой платформы агентов. Anthropic внедрили функцию «computer use» для своей модели Claude, позволяющую ИИ управлять вашим рабочим экраном и делать за вас всякие задачи.

Я сам этим регулярно пользуюсь как в программировании, так и в поиске тем для этого канала — агент ходит по нужным информационным ресурсам и присылает мне ссылки на материалы по заданным параметрам, формируя «беклог» тем.

Стартап Manus идет еще дальше, заявляя о создании «универсального ИИ-агента», способного находить клиентов, планировать путешествия и взаимодействовать со сторонними сервисами без непосредственного человеческого контроля. (Правда, на практике получется у Manus не очень.)

Звучит неплохо. Особенно если задуматься о том, это может упростить жизнь людям с ограниченными возможностями, а также помочь эффективно реагировать на ЧС, оперативно координируя огромные массы людей.

Однако как и всегда — есть нюанс™.

Чем выше автономность ИИ-агента, тем больше контроля и ответственности мы ему передаем. В отличие от чат-ботов, ошибки и «галлюцинации» которых ограничены рамками диалога, агенты действуют в реальном мире, напрямую взаимодействуя с вашими документами, личной перепиской, банковскими сервисами и соцсетями. Цена ошибки здесь может быть слишком высока — от банальной компрометации личных данных до финансовых махинаций и репутационного ущерба.

Товарищи из Hugging Face, которые много занимаются вопросами безопасности агентов, напряглись. Их недавно представленная открытая платформа smolagents специально разработана так, чтобы деятельность ИИ агентов была максимально прозрачной и контролируемой.

Более драматичные перспективы вырисовываются в области кибербезопасности.

В Palisade Research решили проверить, насколько близка реальность использования автономных агентов криминалом, создав проект Honeypot. Это ловушка для агентов-хакеров, замаскированная под привлекательную военную и правительственную информацию. Миллионы попыток взлома были зафиксированы, и среди них уже замечены первые «настоящие» ИИ-агенты, которые вполне успешно справляются с поставленными задачами.

Уже скоро абсолютное большинство кибератак будут проводить именно агенты. Сегодня эти системы способны распознавать и эксплуатировать уязвимости, о которых заранее не знали. Недавний эксперимент Дэниэла Канга из Университета Иллинойса показал: агенты успешно взламывают до 25% систем, если получают минимальную подсказку, где искать слабое место. Это — только начало.

Агенты способны адаптироваться, учиться на ходу и действовать непредсказуемо. В отличие от деревянных ботов прошлых лет, они уклоняются от обнаружения, подстраиваясь под обстановку. А значит, классические механизмы защиты типа простого фильтра трафика перестают работать.

Что делать?

Ключом к решению проблемы по-прежнему остается человек. Мы уже несколько раз оказывались у опасной черты: в 1980-м, из-за ошибки компьютеров, мир чуть было не оказался перед лицом ядерной войны. Тогда катастрофу предотвратил именно человек (Станислав Петров, инженер советских войск).

Будущая архитектура подобных систем должна подразумевать обязательное наличие человека в цепочке принятия основных решений, а сами агенты обязаны быть построены открыто и прозрачно. (Никому не захочется объяснять: «Это не я, это мой ИИ-агент!».) Иначе — мы рискуем упустить момент, когда удобство превратится в угрозу.

Подписаться

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка