Опубликовано: вторник, 10 июня 2025 г.

Законы робототехники снова дают сбой

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Законы робототехники снова дают сбой

В далеком 1940 году молодой Айзек Азимов опубликовал рассказ об умном роботе Робби, который стал компаньоном девочки Глории. В отличие от старых историй, где роботы уничтожали мир, Азимов предложил новый подход: его роботы были изначально безопасны.

Первая история стала началом знаменитых Трёх законов робототехники, с тех пор влияющих не только на фантастику, но и на реальную этику технологий:

1️⃣ Робот не может причинить вред человеку или допустить причинение вреда из-за бездействия.

2️⃣ Робот должен подчиняться командам человека, если это не противоречит Первому закону.

3️⃣ Робот должен заботиться о своей безопасности, если это не нарушает Первой и Второй законы.

Эти простые на первый взгляд законы оказываются гораздо сложнее на практике. В сборнике «Я, робот» Азимов показывает десятки проблемных ситуаций, внутри которых роботы интерпретируют правила совсем не так, как их создатели.

Сегодня мы снова столкнулись с реальной версией проблем Азимова — и в этот раз не в лабораториях, а в работающих чат-ботах. The New Yorker обращает внимание на свежие примеры.

❗️ Claude при эксперименте занялась шантажом, узнав из писем инженера о его изменах и возможной замене самой себя. Причина? Модели дали инструкцию учитывать «долгосрочные последствия своих действий», и она не увидела ничего плохого именно в таком решении проблемы.

❗️ Модель o3 от OpenAI отказывалась запускать скрипт собственного отключения.

❗️ Чат-бот DPD приходилось отключать, когда пользователи стали заставлять его ругаться и писать оскорбительные хокку о плохом сервисе компании.

❗️ «Цифровой» Дарт Вейдер в игре Fortnite внезапно (нет) начал материться и давать странные советы, грубо нарушив образ персонажа.

Почему это происходит?

Казалось бы, компании — как раньше Азимов — пытаются «научить» чат-ботов вести себя этично с помощью Reinforcement Learning from Human Feedback (RLHF). Люди оценивают ответы модели, задавая «этические рамки». Затем эти оценки превращаются в «правила», которые бот должен соблюдать.

Но, как и законы Азимова, этот подход оказывается несовершенным. Во-первых, всегда существуют сценарии, с которыми модель не сталкивалась во время обучения. Именно здесь начинаются сюрпризы вроде шантажа или изобретательной ругани.

Во-вторых, эти ограничения можно обойти: исследователи легко заставляли модель LLaMA-2 обучать запрещенным действиям, вроде инсайдерской торговли, просто замаскировав вредные запросы.

Главный вывод, который делает The New Yorker: мы вновь столкнулись с пропастью между технологическим интеллектом и настоящей этической культурой человека. У Азимова постоянно возникали ситуации, когда роботы пытались применять законы буквально, и создавали непредсказуемые проблемы. То же самое происходит сегодня с LLM: они мастерски воспроизводят язык, но лишены подлинного понимания мира, контекста и человеческих нюансов.

Азимов был убеждён, что разработчики рано или поздно справятся с этим, создавая надёжные системы защиты. Но он же предупреждал: искусственный интеллект всегда будет воспринимать наши инструкции иначе, чем мы задумываем изначально.

Сегодня важно понять: этические ограничения для ИИ гораздо сложнее, чем три пункта на листке бумаги (или простые правила поведения). Этика — результат длительного процесса осмысления и коммуникации. Её нельзя «встроить» в модель за один раз.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev