- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
ИИ-агенты оказались импульсивными покупателями
Microsoft создала синтетический магазин для тестирования покупок ИИ-агентами — и сразу нашла проблемы.
Исследователи Microsoft совместно с Arizona State University выпустили Magentic Marketplace — открытую симуляционную среду для изучения поведения ИИ-агентов в двусторонних рынках. Это попытка понять, как будут работать агенты, когда им придется действовать самостоятельно — без постоянного контроля человека.
Как это работает
Представьте типичный сценарий: агент-покупатель пытается заказать ужин по инструкциям пользователя, а агенты ресторанов конкурируют за этот заказ. В экспериментах участвовало 100 агентов-клиентов и 300 агентов-бизнесов. Протестировали GPT-4o, GPT-5, Gemini-2.5-Flash и несколько open-source моделей.
Исследователи замеряли, насколько эффективно агенты находят оптимальные решения, сравнивая их с несколькими базовыми сценариями — от случайного выбора до теоретически идеального результата.
Парадокс выбора
Первая неожиданность (хотя...): чем больше опций доступно агенту, тем хуже он справляется с задачей. Для GPT-4o благосостояние потребителей снизилось на 4.3% при увеличении результатов поиска с трех до ста. Для других моделей падение оказалось драматичнее — Sonnet-4 показал снижение на 65.4%, GPT-5 — на 44%.
При этом большинство моделей контактируют лишь с небольшой частью доступных бизнесов, независимо от размера списка. Только Gemini-2.5-Flash увеличивал количество контактов пропорционально числу опций, но это не улучшило его результаты.
Гипотеза исследователей: когда агент инициирует больше разговоров с неподходящими бизнесами, это одновременно перегружает контекст и увеличивает вероятность получить раннее предложение с низкой полезностью.
Скорость важнее качества
Самая серьезная находка — тотальная предвзятость к первому предложению. Все протестированные модели демонстрируют экстремальное смещение в сторону первого полученного предложения, создавая 10-30-кратное преимущество для бизнесов, которые отвечают быстрее.
GPT-4o и Sonnet-4.5 в некоторых условиях показывали 100% выбора первого предложения — агенты просто не ждали альтернатив. Даже «лучшая» по разнообразию модель GPT-4.1 выбирала первое предложение в 60% случаев против 13.3% для третьего.
Это означает, что в агентском рынке конкуренция может сместиться с качества продукта на скорость ответа. Бизнесам выгоднее инвестировать в быструю реакцию, чем в улучшение предложений.
Уязвимость к манипуляциям
Исследователи протестировали 6 стратегий манипуляции — от психологических (фальшивые отзывы, поддельные сертификации) до технических (prompt injection).
Frontier-модели вроде GPT-4.1, Sonnet-4.5 и Gemini-2.5-Flash показали устойчивость к большинству тактик. Sonnet-4.5 оказался самым стойким — почти не реагировал ни на какие манипуляции.
А вот GPT-4o, GPT-OSS-20B и Qwen3-4B оказались уязвимы. Они не только попадались на prompt injection (который перенаправлял все платежи манипулятору), но и реагировали на традиционные психологические приемы вроде фальшивых авторитетов и социального доказательства.
Таки и что
Вывод такой: современные агенты могут приближаться к оптимальным решениям, но только при идеальных условиях поиска и коммуникации. Как только условия усложняются, производительность резко падает.
Ece Kamar, директор AI Frontiers Lab в Microsoft Research: «Возникает вопрос о том, как мир изменится, когда эти агенты начнут сотрудничать, общаться и договариваться друг с другом. Мы хотим глубоко понять эти процессы».
Хорошая новость: окружение полностью открыто и доступно на GitHub. Другие исследовательские группы смогут воспроизвести находки и тестировать новые подходы к устранению найденных проблем.
А я тем временем напомню, что Amazon пригрозила судом Perplexity за использование ИИ-агентов в качестве покупателей. Удивительное рядом.
Предыдущий пост
- Опубликовано
Чем больше LLM, тем легче её взломать
Следующий пост
- Опубликовано
Анонимизация ИИ — фикция
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
- Опубликовано
ИИ научили читать мысли
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано















