Подписаться
Опубликовано

ИИ-агенты оказались импульсивными покупателями

Автор
  • Имя
    Нейрократия
    Telegram

ИИ-агенты оказались импульсивными покупателями

Microsoft создала синтетический магазин для тестирования покупок ИИ-агентами — и сразу нашла проблемы.

Исследователи Microsoft совместно с Arizona State University выпустили Magentic Marketplace — открытую симуляционную среду для изучения поведения ИИ-агентов в двусторонних рынках. Это попытка понять, как будут работать агенты, когда им придется действовать самостоятельно — без постоянного контроля человека.

Как это работает

Представьте типичный сценарий: агент-покупатель пытается заказать ужин по инструкциям пользователя, а агенты ресторанов конкурируют за этот заказ. В экспериментах участвовало 100 агентов-клиентов и 300 агентов-бизнесов. Протестировали GPT-4o, GPT-5, Gemini-2.5-Flash и несколько open-source моделей.

Исследователи замеряли, насколько эффективно агенты находят оптимальные решения, сравнивая их с несколькими базовыми сценариями — от случайного выбора до теоретически идеального результата.

Парадокс выбора

Первая неожиданность (хотя...): чем больше опций доступно агенту, тем хуже он справляется с задачей. Для GPT-4o благосостояние потребителей снизилось на 4.3% при увеличении результатов поиска с трех до ста. Для других моделей падение оказалось драматичнее — Sonnet-4 показал снижение на 65.4%, GPT-5 — на 44%.

При этом большинство моделей контактируют лишь с небольшой частью доступных бизнесов, независимо от размера списка. Только Gemini-2.5-Flash увеличивал количество контактов пропорционально числу опций, но это не улучшило его результаты.

Гипотеза исследователей: когда агент инициирует больше разговоров с неподходящими бизнесами, это одновременно перегружает контекст и увеличивает вероятность получить раннее предложение с низкой полезностью.

Скорость важнее качества

Самая серьезная находка — тотальная предвзятость к первому предложению. Все протестированные модели демонстрируют экстремальное смещение в сторону первого полученного предложения, создавая 10-30-кратное преимущество для бизнесов, которые отвечают быстрее.

GPT-4o и Sonnet-4.5 в некоторых условиях показывали 100% выбора первого предложения — агенты просто не ждали альтернатив. Даже «лучшая» по разнообразию модель GPT-4.1 выбирала первое предложение в 60% случаев против 13.3% для третьего.

Это означает, что в агентском рынке конкуренция может сместиться с качества продукта на скорость ответа. Бизнесам выгоднее инвестировать в быструю реакцию, чем в улучшение предложений.

Уязвимость к манипуляциям

Исследователи протестировали 6 стратегий манипуляции — от психологических (фальшивые отзывы, поддельные сертификации) до технических (prompt injection).

Frontier-модели вроде GPT-4.1, Sonnet-4.5 и Gemini-2.5-Flash показали устойчивость к большинству тактик. Sonnet-4.5 оказался самым стойким — почти не реагировал ни на какие манипуляции.

А вот GPT-4o, GPT-OSS-20B и Qwen3-4B оказались уязвимы. Они не только попадались на prompt injection (который перенаправлял все платежи манипулятору), но и реагировали на традиционные психологические приемы вроде фальшивых авторитетов и социального доказательства.

Таки и что

Вывод такой: современные агенты могут приближаться к оптимальным решениям, но только при идеальных условиях поиска и коммуникации. Как только условия усложняются, производительность резко падает.

Ece Kamar, директор AI Frontiers Lab в Microsoft Research: «Возникает вопрос о том, как мир изменится, когда эти агенты начнут сотрудничать, общаться и договариваться друг с другом. Мы хотим глубоко понять эти процессы».

Хорошая новость: окружение полностью открыто и доступно на GitHub. Другие исследовательские группы смогут воспроизвести находки и тестировать новые подходы к устранению найденных проблем.

А я тем временем напомню, что Amazon пригрозила судом Perplexity за использование ИИ-агентов в качестве покупателей. Удивительное рядом.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка