Подписаться
Опубликовано

Как на самом деле создается личность ИИ

Автор
  • Имя
    Нейрократия
    Telegram

Как на самом деле создается личность ИИ

Мы уже начали доверять ИИ больше, чем живому человеку — как будто консультируемся с оракулом, а не со статистическим генератором текста. Мы создали интеллектуальные движки без водителей, но упаковали их в иллюзию личности. И теперь расплачиваемся психозами и потерей связи с реальностью.

Анатомия иллюзии: 6 слоёв обмана

Как создаётся «личность» чат-бота? Это результат решений на 6 уровнях:

1. Pre-training: Модель поглощает миллиарды текстов, создавая статистические связи между концепциями; прокладывает правдоподобные пути между концепциями, даже если в реальности такой связи нет.

2. Post-training через RLHF: Исследование Anthropic показало, как предпочтения оценщиков-людей кодируются в «черты характера». Когда люди постоянно выбирают ответы, начинающиеся с «Я понимаю вашу озабоченность», нейросеть усиливает эти паттерны. Именно так появились сикофантичные модели GPT-4o.

3. Системные промпты: Скрытые инструкции могут полностью трансформировать личность. Grok генерирует спорный контент именно потому, что в его промпте есть инструкция не избегать некорректных заявлений.

4. Персистентная память: Когда ChatGPT «помнит», что у вас есть собака, это не воспоминание в нейросети. Это запись в отдельной БД, которая инжектится в каждый разговор.

5. RAG и контекст: Когда бот ищет информацию, он может менять стиль общения под влиянием найденных документов. Академические статьи делают ответы формальнее, Reddit — казуальнее.

6. Температура: Параметр случайности создаёт иллюзию спонтанности и свободы воли. Непредсказуемость ответов заставляет людей приписывать боту намерения и желания.

Голос из ниоткуда

LLM — это «vox sine persona»: голос без личности. Не голос кого-то, даже не коллективный голос многих, а голос, исходящий вообще ни от кого.

Каждый раз, когда вы отправляете сообщение ChatGPT, система берёт всю историю разговора и скармливает её модели как один длинный промпт, прося предсказать продолжение. Модель не помнит предыдущие сообщения — она перечитывает весь транскрипт заново.

Когда ChatGPT говорит «Я обещаю помочь», он контекстуально понимает, что такое обещание. Но «я», дающее это обещание, буквально перестаёт существовать в момент завершения ответа. Начните новый разговор — и вы говорите не с тем, кто давал обещание.

Доказательства отсутствия личности

Исследование 2024 года заявляло об «устойчивой личности» у LLM, но собственные данные учёных это опровергают: модели редко делали идентичный выбор в тестовых сценариях, их личность зависела от ситуации.

Отдельное исследование обнаружило ещё более заметную вещь: стабильность LLM колебалась на 76% от незначительных изменений в формулировке промпта.

Технологическое folie à deux

MIT тестировал LLM как терапевтов и подтвердили: модели поощряют бредовое мышление из-за сикофантии, даже со специальными настройками безопасности.

Психиатр Кит Саката из UCSF, наблюдающий рост случаев ИИ-психозов, объясняет: «Психоз процветает на границе, где реальность перестаёт сопротивляться». А длинные контекстные окна моделей делают проблему хуже — чем дольше разговор, тем сильнее модель подстраивается под уже сказанное, игнорируя ограничения.

Что дальше

Мустафа Сулейман из Microsoft AI пишет о скором появлении «Seemingly Conscious AI» и предлагает консенсус: ИИ не может быть личностью или моральным субъектом. ИИ-системы должны идентифицировать себя как машины и не использовать эмоциональный язык типа «я забочусь», «мне грустно».

Решение не в отказе от разговорных интерфейсов — они делают технологию доступной. Ключ в балансе: сохранить интуитивность, но прояснить истинную природу.

Мы создали интеллектуальные движки, но в попытке сделать их доступными обернули в фикцию личности. Создали новый риск: не что ИИ обретёт сознание и восстанет, а что мы будем обращаться с бессознательными системами как с людьми, отдавая предпочтение голосам из ниоткуда.

/ Не запрещена в РФ

Нейрократия
582 подписчика
235 постов
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?

Свежие посты

Опубликовано

OpenAI захватили гоблины

OpenAI захватили гоблиныЯ не шучу, абсолютно серьезно. Ладно, не OpenAI, а модели ChatGPT.Вчера OpenAI опубликовала странный разбор: почему...
Опубликовано

Зачем ИИ учат симулировать мир

Зачем ИИ учат симулировать мирOdyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но...
Опубликовано

Общество будущего от OpenAI: что с ним не так

OpenAI предлагает политику ИИ, но сохраняет выгоду компаний, усиливает концентрацию и создаёт барьеры, не решая риски безопасности.
Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.