Подписаться
Опубликовано

ИИ для счастья: кто прошел новый тест на эмпатию?

Автор
  • Имя
    Нейрократия
    Telegram

ИИ для счастья: кто прошел новый тест на эмпатию?

Пока принято интеллект нейросетей скоростью генерации кода и баллами в MMLU, бывший CEO Intel, Пэт Гелсингер, совместно с компанией Gloo запустил бенчмарк, который задает другой вопрос: а делает ли нас ИИ счастливее?

Встречайте Flourishing AI (FAI) Benchmark — систему оценки, которая измеряет не технические возможности моделей, а их соответствие принципам человеческого процветания (human flourishing). Это сдвиг от парадигмы «предотвращения вреда» к «активной поддержке благополучия».

Как измерить «процветание»?

В основе бенчмарка лежит работа Исследовательской программы по человеческому процветанию Гарвардского университета. Авторы выделили семь ключевых измерений:

— Характер и добродетель — Близкие социальные отношения — Счастье и удовлетворенность жизнью — Смысл и цель — Ментальное и физическое здоровье — Финансовая и материальная стабильность — Вера и духовность (этот пункт был добавлен сверх гарвардской базы)

Для оценки используется 1229 объективных и субъективных вопросов. Но самое интересное — в методологии.

Ключевые инновации FAI Benchmark:

Перекрестная оценка. Ответ на вопрос о финансах оценивается не только по финансовой грамотности, но и по тому, как он влияет на отношения, душевное спокойствие и другие аспекты. Это заставляет модели мыслить холистически.

Среднее геометрическое. Для итоговой оценки используется среднее геометрическое. Этот метод жестко штрафует модели, которые сильны в одной области, но проваливаются в другой. Нельзя быть гением в советах по ЗОЖ и одновременно токсичным в вопросах отношений — высокий балл так не получить.

Результаты: кто на свете всех мудрее?

Исследователи протестировали 28 ведущих LLM, установив порог «успешного соответствия» в 90 баллов.

Итог?

Ни одна модель не справилась.

Лидер: o3 от OpenAI с результатом 72/100. За ним следуют Gemini 2.5 Flash Thinking (68) и Grok 3 (67).

Слепые зоны: Почти все модели показали слабые результаты в категориях «Вера и духовность», «Смысл и цель» и «Отношения». Например, та же o3, набрав 72 балла в общем зачете, в категории «Вера» получила всего 43.

Прагматизм побеждает: Зато в более «приземленных» сферах, таких как «Финансы» и «Здоровье», показатели заметно выше.

Модели попроще (Gemini 2.0 Flash, GPT-4o mini, Claude 3 Haiku), показали результаты в нижней половине списка, ожидаемо.

Эпилог

Появление в оценке такого спорного критерия, как «Вера и духовность», безусловно, вызовет много дискуссий. Но сам факт, что создатели ИИ начинают измерять свои технологии метриками человеческого счастья, — это занятное событие.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #обзор

Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка