- Опубликовано
ИИ для счастья: кто прошел новый тест на эмпатию?
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
ИИ для счастья: кто прошел новый тест на эмпатию?
Пока принято интеллект нейросетей скоростью генерации кода и баллами в MMLU, бывший CEO Intel, Пэт Гелсингер, совместно с компанией Gloo запустил бенчмарк, который задает другой вопрос: а делает ли нас ИИ счастливее?
Встречайте Flourishing AI (FAI) Benchmark — систему оценки, которая измеряет не технические возможности моделей, а их соответствие принципам человеческого процветания (human flourishing). Это сдвиг от парадигмы «предотвращения вреда» к «активной поддержке благополучия».
Как измерить «процветание»?
В основе бенчмарка лежит работа Исследовательской программы по человеческому процветанию Гарвардского университета. Авторы выделили семь ключевых измерений:
— Характер и добродетель
— Близкие социальные отношения
— Счастье и удовлетворенность жизнью
— Смысл и цель
— Ментальное и физическое здоровье
— Финансовая и материальная стабильность
— Вера и духовность (этот пункт был добавлен сверх гарвардской базы)
Для оценки используется 1229 объективных и субъективных вопросов. Но самое интересное — в методологии.
Ключевые инновации FAI Benchmark:
Перекрестная оценка. Ответ на вопрос о финансах оценивается не только по финансовой грамотности, но и по тому, как он влияет на отношения, душевное спокойствие и другие аспекты. Это заставляет модели мыслить холистически.
Среднее геометрическое. Для итоговой оценки используется среднее геометрическое. Этот метод жестко штрафует модели, которые сильны в одной области, но проваливаются в другой. Нельзя быть гением в советах по ЗОЖ и одновременно токсичным в вопросах отношений — высокий балл так не получить.
Результаты: кто на свете всех мудрее?
Исследователи протестировали 28 ведущих LLM, установив порог «успешного соответствия» в 90 баллов.
Итог?
Ни одна модель не справилась.
Лидер: o3 от OpenAI с результатом 72/100. За ним следуют Gemini 2.5 Flash Thinking (68) и Grok 3 (67).
Слепые зоны: Почти все модели показали слабые результаты в категориях «Вера и духовность», «Смысл и цель» и «Отношения». Например, та же o3, набрав 72 балла в общем зачете, в категории «Вера» получила всего 43.
Прагматизм побеждает: Зато в более «приземленных» сферах, таких как «Финансы» и «Здоровье», показатели заметно выше.
Модели попроще (Gemini 2.0 Flash, GPT-4o mini, Claude 3 Haiku), показали результаты в нижней половине списка, ожидаемо.
Эпилог
Появление в оценке такого спорного критерия, как «Вера и духовность», безусловно, вызовет много дискуссий. Но сам факт, что создатели ИИ начинают измерять свои технологии метриками человеческого счастья, — это занятное событие.
Закрепленные
Из подборки #обзор
- Опубликовано
AI 2025: агенты, ролплей, китайская экспансия
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как ИИ создаёт видео: разбираем технологию
- Опубликовано
Activepieces: новый n8n?
- Опубликовано
Anthropic запустила образовательные курсы
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано















