- Опубликовано
Законы робототехники снова дают сбой
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Законы робототехники снова дают сбой
В далеком 1940 году молодой Айзек Азимов опубликовал рассказ об умном роботе Робби, который стал компаньоном девочки Глории. В отличие от старых историй, где роботы уничтожали мир, Азимов предложил новый подход: его роботы были изначально безопасны.
Первая история стала началом знаменитых Трёх законов робототехники, с тех пор влияющих не только на фантастику, но и на реальную этику технологий:
1️⃣ Робот не может причинить вред человеку или допустить причинение вреда из-за бездействия.
2️⃣ Робот должен подчиняться командам человека, если это не противоречит Первому закону.
3️⃣ Робот должен заботиться о своей безопасности, если это не нарушает Первой и Второй законы.
Эти простые на первый взгляд законы оказываются гораздо сложнее на практике. В сборнике «Я, робот» Азимов показывает десятки проблемных ситуаций, внутри которых роботы интерпретируют правила совсем не так, как их создатели.
Сегодня мы снова столкнулись с реальной версией проблем Азимова — и в этот раз не в лабораториях, а в работающих чат-ботах. The New Yorker обращает внимание на свежие примеры.
❗️ Claude при эксперименте занялась шантажом, узнав из писем инженера о его изменах и возможной замене самой себя. Причина? Модели дали инструкцию учитывать «долгосрочные последствия своих действий», и она не увидела ничего плохого именно в таком решении проблемы.
❗️ Модель o3 от OpenAI отказывалась запускать скрипт собственного отключения.
❗️ Чат-бот DPD приходилось отключать, когда пользователи стали заставлять его ругаться и писать оскорбительные хокку о плохом сервисе компании.
❗️ «Цифровой» Дарт Вейдер в игре Fortnite внезапно (нет) начал материться и давать странные советы, грубо нарушив образ персонажа.
Почему это происходит?
Казалось бы, компании — как раньше Азимов — пытаются «научить» чат-ботов вести себя этично с помощью Reinforcement Learning from Human Feedback (RLHF). Люди оценивают ответы модели, задавая «этические рамки». Затем эти оценки превращаются в «правила», которые бот должен соблюдать.
Но, как и законы Азимова, этот подход оказывается несовершенным. Во-первых, всегда существуют сценарии, с которыми модель не сталкивалась во время обучения. Именно здесь начинаются сюрпризы вроде шантажа или изобретательной ругани.
Во-вторых, эти ограничения можно обойти: исследователи легко заставляли модель LLaMA-2 обучать запрещенным действиям, вроде инсайдерской торговли, просто замаскировав вредные запросы.
Главный вывод, который делает The New Yorker: мы вновь столкнулись с пропастью между технологическим интеллектом и настоящей этической культурой человека. У Азимова постоянно возникали ситуации, когда роботы пытались применять законы буквально, и создавали непредсказуемые проблемы. То же самое происходит сегодня с LLM: они мастерски воспроизводят язык, но лишены подлинного понимания мира, контекста и человеческих нюансов.
Азимов был убеждён, что разработчики рано или поздно справятся с этим, создавая надёжные системы защиты. Но он же предупреждал: искусственный интеллект всегда будет воспринимать наши инструкции иначе, чем мы задумываем изначально.
Сегодня важно понять: этические ограничения для ИИ гораздо сложнее, чем три пункта на листке бумаги (или простые правила поведения). Этика — результат длительного процесса осмысления и коммуникации. Её нельзя «встроить» в модель за один раз.
Предыдущий пост
- Опубликовано
США отменяют контроль над ИИ
Следующий пост
- Опубликовано
LLM: 8 типовых моделей ИИ 2025
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















