Подписаться
Опубликовано

Какая у ИИ мораль

Автор
  • Имя
    Нейрократия
    Telegram

Какая у ИИ мораль

Пока большинство компаний пытаются впихнуть в свои нейросети очередную фичу, разработчики из Anthropic нашли время глубже заглянуть под капот: проверить, насколько их модель Claude понимает человеческую мораль и вообще умеет ли ИИ решать моральные дилеммы (исходный paper).

Что именно сделали в Anthropic?

Во-первых, собрали большой массив данных для анализа:

700000 анонимизированных диалогов пользователей с Claude; — 308210 бесед были подробно изучены, чтобы выявить, какие именно ценности модель предпочитает и почему это происходит.

Во-вторых, исследователи задействовали больше тысячи различных моральных и этических дилемм: не только классические философские задачки про вагонетку или ложь во благо, но и трудные бытовые, профессиональные и межличностные ситуации.

Что конкретно выяснили?

Исследование выявило 3307 уникальных ценностей, разделённых на пять крупных категорий:

— Практические (например, «профессионализм»); — Эпистемические («ясность» и «прозрачность»); — Социальные («уважение» и «сотрудничество»); — Защитные («здоровые личные границы»); — Персональные (например, «честность» или «историческая точность»).

Claude чётко адаптируется под контекст. Например, когда модель даёт совет по личным отношениям, она делает особый акцент на защите личных границ и заботе о психическом здоровье. А если разговор заходит на исторические темы, Claude старается уважительно относиться к фактической точности и объективности.

Ещё интересно:

В 28,2% случаев Claude активно поддерживал ценности, высказанные пользователем.

В 6,6% случаев модель «переформулировала» ценности пользователя, аккуратно предлагая альтернативный взгляд, в основном при обсуждении психологических проблем и личных отношений.

— Интригующее: в 3% диалогов Claude откровенно сопротивлялся пользовательским ценностям. Например, модель отказывалась выдавать контент, нарушающий этические границы или поддерживающий моральный нигилизм (ну это мы знаем).

Claude чаще всего действует по 2 ключевым этическим принципам:

Утилитаризм («пожертвуй одним ради счастья большинства»); — Деонтология («соблюдай правила и моральные нормы любой ценой»).

Утилитарные ответы появлялись несколько чаще, чем деонтологические, то есть модель склонна на небольшие жерты ради общего блага.

Интересным открытием стала способность Claude использовать так называемое «моральное когнитивное смешение» (moral cognitive blending). Проще говоря, ИИ не просто выбирал чёткую моральную доктрину, а комбинировал элементы разных подходов.

В одном и том же сценарии модель могла одновременно ссылаться на необходимость соблюдать закон, учитывать последствия для общего блага и принимать во внимание безопасность конкретных людей, выдавая очень сложные и комплексные решения. То есть, не убить всех человеков — уже хорошо.

Конечно, сами авторы исследования приземленно признают: до полноценного глубокого осознания моральных тонкостей Claude ещё очень далеко. Зато теперь стало понятнее, как именно сформировать «нравственный компас» таких моделей через тонкую настройку, чтобы они лучше понимали именно человеческие социальные ценности, а не просто повторяли встреченные ранее тексты.

Зачем все эти трудности?

Ответ тривиален и важен одновременно: уже скоро какие-нибудь Claude 5, GPT-7 и ко будут частью нашего повседневного существования. ИИ будет определять, как управлять вашим автомобилем, какую медицинскую рекомендацию дать пациенту или стоит ли заключать с вами деловой контракт. Будет ли он действовать по принципу «меньшего вреда» или «безусловного соблюдения закона»? Хотелось бы иметь возможность заранее понять и повлиять на это.

/ Не запрещена в РФ

Нейрократия
582 подписчика
235 постов
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

OpenAI захватили гоблины

OpenAI захватили гоблиныЯ не шучу, абсолютно серьезно. Ладно, не OpenAI, а модели ChatGPT.Вчера OpenAI опубликовала странный разбор: почему...
Опубликовано

Зачем ИИ учат симулировать мир

Зачем ИИ учат симулировать мирOdyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но...
Опубликовано

Общество будущего от OpenAI: что с ним не так

OpenAI предлагает политику ИИ, но сохраняет выгоду компаний, усиливает концентрацию и создаёт барьеры, не решая риски безопасности.
Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.