Подписаться
Опубликовано

Законы робототехники снова дают сбой

Автор
  • Имя
    Нейрократия
    Telegram

Законы робототехники снова дают сбой

В далеком 1940 году молодой Айзек Азимов опубликовал рассказ об умном роботе Робби, который стал компаньоном девочки Глории. В отличие от старых историй, где роботы уничтожали мир, Азимов предложил новый подход: его роботы были изначально безопасны.

Первая история стала началом знаменитых Трёх законов робототехники, с тех пор влияющих не только на фантастику, но и на реальную этику технологий:

1️⃣ Робот не может причинить вред человеку или допустить причинение вреда из-за бездействия.

2️⃣ Робот должен подчиняться командам человека, если это не противоречит Первому закону.

3️⃣ Робот должен заботиться о своей безопасности, если это не нарушает Первой и Второй законы.

Эти простые на первый взгляд законы оказываются гораздо сложнее на практике. В сборнике «Я, робот» Азимов показывает десятки проблемных ситуаций, внутри которых роботы интерпретируют правила совсем не так, как их создатели.

Сегодня мы снова столкнулись с реальной версией проблем Азимова — и в этот раз не в лабораториях, а в работающих чат-ботах. The New Yorker обращает внимание на свежие примеры.

❗️ Claude при эксперименте занялась шантажом, узнав из писем инженера о его изменах и возможной замене самой себя. Причина? Модели дали инструкцию учитывать «долгосрочные последствия своих действий», и она не увидела ничего плохого именно в таком решении проблемы.

❗️ Модель o3 от OpenAI отказывалась запускать скрипт собственного отключения.

❗️ Чат-бот DPD приходилось отключать, когда пользователи стали заставлять его ругаться и писать оскорбительные хокку о плохом сервисе компании.

❗️ «Цифровой» Дарт Вейдер в игре Fortnite внезапно (нет) начал материться и давать странные советы, грубо нарушив образ персонажа.

Почему это происходит?

Казалось бы, компании — как раньше Азимов — пытаются «научить» чат-ботов вести себя этично с помощью Reinforcement Learning from Human Feedback (RLHF). Люди оценивают ответы модели, задавая «этические рамки». Затем эти оценки превращаются в «правила», которые бот должен соблюдать.

Но, как и законы Азимова, этот подход оказывается несовершенным. Во-первых, всегда существуют сценарии, с которыми модель не сталкивалась во время обучения. Именно здесь начинаются сюрпризы вроде шантажа или изобретательной ругани.

Во-вторых, эти ограничения можно обойти: исследователи легко заставляли модель LLaMA-2 обучать запрещенным действиям, вроде инсайдерской торговли, просто замаскировав вредные запросы.

Главный вывод, который делает The New Yorker: мы вновь столкнулись с пропастью между технологическим интеллектом и настоящей этической культурой человека. У Азимова постоянно возникали ситуации, когда роботы пытались применять законы буквально, и создавали непредсказуемые проблемы. То же самое происходит сегодня с LLM: они мастерски воспроизводят язык, но лишены подлинного понимания мира, контекста и человеческих нюансов.

Азимов был убеждён, что разработчики рано или поздно справятся с этим, создавая надёжные системы защиты. Но он же предупреждал: искусственный интеллект всегда будет воспринимать наши инструкции иначе, чем мы задумываем изначально.

Сегодня важно понять: этические ограничения для ИИ гораздо сложнее, чем три пункта на листке бумаги (или простые правила поведения). Этика — результат длительного процесса осмысления и коммуникации. Её нельзя «встроить» в модель за один раз.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка