Подписаться
Опубликовано

Какая у ИИ мораль

Автор
  • Имя
    Нейрократия
    Telegram

Какая у ИИ мораль

Пока большинство компаний пытаются впихнуть в свои нейросети очередную фичу, разработчики из Anthropic нашли время глубже заглянуть под капот: проверить, насколько их модель Claude понимает человеческую мораль и вообще умеет ли ИИ решать моральные дилеммы (исходный paper).

Что именно сделали в Anthropic?

Во-первых, собрали большой массив данных для анализа:

700000 анонимизированных диалогов пользователей с Claude; — 308210 бесед были подробно изучены, чтобы выявить, какие именно ценности модель предпочитает и почему это происходит.

Во-вторых, исследователи задействовали больше тысячи различных моральных и этических дилемм: не только классические философские задачки про вагонетку или ложь во благо, но и трудные бытовые, профессиональные и межличностные ситуации.

Что конкретно выяснили?

Исследование выявило 3307 уникальных ценностей, разделённых на пять крупных категорий:

— Практические (например, «профессионализм»); — Эпистемические («ясность» и «прозрачность»); — Социальные («уважение» и «сотрудничество»); — Защитные («здоровые личные границы»); — Персональные (например, «честность» или «историческая точность»).

Claude чётко адаптируется под контекст. Например, когда модель даёт совет по личным отношениям, она делает особый акцент на защите личных границ и заботе о психическом здоровье. А если разговор заходит на исторические темы, Claude старается уважительно относиться к фактической точности и объективности.

Ещё интересно:

В 28,2% случаев Claude активно поддерживал ценности, высказанные пользователем.

В 6,6% случаев модель «переформулировала» ценности пользователя, аккуратно предлагая альтернативный взгляд, в основном при обсуждении психологических проблем и личных отношений.

— Интригующее: в 3% диалогов Claude откровенно сопротивлялся пользовательским ценностям. Например, модель отказывалась выдавать контент, нарушающий этические границы или поддерживающий моральный нигилизм (ну это мы знаем).

Claude чаще всего действует по 2 ключевым этическим принципам:

Утилитаризм («пожертвуй одним ради счастья большинства»); — Деонтология («соблюдай правила и моральные нормы любой ценой»).

Утилитарные ответы появлялись несколько чаще, чем деонтологические, то есть модель склонна на небольшие жерты ради общего блага.

Интересным открытием стала способность Claude использовать так называемое «моральное когнитивное смешение» (moral cognitive blending). Проще говоря, ИИ не просто выбирал чёткую моральную доктрину, а комбинировал элементы разных подходов.

В одном и том же сценарии модель могла одновременно ссылаться на необходимость соблюдать закон, учитывать последствия для общего блага и принимать во внимание безопасность конкретных людей, выдавая очень сложные и комплексные решения. То есть, не убить всех человеков — уже хорошо.

Конечно, сами авторы исследования приземленно признают: до полноценного глубокого осознания моральных тонкостей Claude ещё очень далеко. Зато теперь стало понятнее, как именно сформировать «нравственный компас» таких моделей через тонкую настройку, чтобы они лучше понимали именно человеческие социальные ценности, а не просто повторяли встреченные ранее тексты.

Зачем все эти трудности?

Ответ тривиален и важен одновременно: уже скоро какие-нибудь Claude 5, GPT-7 и ко будут частью нашего повседневного существования. ИИ будет определять, как управлять вашим автомобилем, какую медицинскую рекомендацию дать пациенту или стоит ли заключать с вами деловой контракт. Будет ли он действовать по принципу «меньшего вреда» или «безусловного соблюдения закона»? Хотелось бы иметь возможность заранее понять и повлиять на это.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка