Подписаться
Опубликовано

Как распознать ИИ‑текст: чек‑лист Wikipedia

Автор
  • Имя
    Нейрократия
    Telegram

Как распознать ИИ-текст: полный чек-лист от Wikipedia

Редакторы Wikipedia создали подробное руководство по выявлению искусственно сгенерированного контента — и случайно написали лучший мануал для тех, кто хочет сделать свои ИИ-тексты менее похожими на творчество роботов.

Почему Wikipedia взялась за это

У Wikipedia есть серьёзные причины бороться с ИИ-слопом. Сайт стал мишенью для коммерческого злоупотребления: компании используют ботов для создания псевдостатей и правок, чтобы повысить свою репутацию в глазах поисковиков. Google всё больше ценит упоминания в Wikipedia как показатель авторитетности бренда.

Схема проста: создать Wikipedia-страницу для своей компании нельзя, но можно замаскировать нужные правки среди сотен «случайных» обновлений разных статей. ИИ отлично справляется с генерацией такого шума в промышленных масштабах.

«Всё удивительно и символично»

Список признаков ИИ-письма Wikipedia очень конкретны. Вместо расплывчатых советов типа «следите за странными фразами» редакторы собрали точные паттерны, которые выдают машинный текст.

— LLM обожают придавать «символическое значение» всему подряд. У них любое место «захватывающее», все животные «величественные», а всё вокруг непременно «разнообразное» и «удивительное».

— Нейросети злоупотребляют переходными словами и конструкциями вроде «в заключение» или «в целом». Особенно любят негативные параллелизмы: «это не только отличное место для итальянской кухни, но и яркий пример местного предпринимательства».

— Ещё один маркер — правило трёх (в отношении характеристик и эпитетов). ChatGPT обожает описывать людей как «креативных, умных и забавных», а компании как «инновационные, нарушающие правила и влиятельные».

На Wikipedia еще много других признаков AI generated text, посмотрите сами.

Хорошее письмо, плохой результат

Парадокс в том, что многие из этих приёмов считались бы хорошим письмом, если бы их использовал человек. LLM не плохо пишут — они пишут предсказуемо. Полированный стиль и следование конвенциям маскируют отсутствие реального понимания темы.

Как отмечают редакторы Wikipedia, мы часто путаем красивую форму с содержательностью. Если ИИ пишет грамматически правильно и текст хорошо структурирован, мы можем не заметить, что по сути он ничего не собой не несет.

Двойное применение

Список Wikipedia работает в обе стороны. Хотите распознать ИИ-текст? Проверьте, не слишком ли часто встречается правило трёх, не переполнен ли текст переходными словами, не звучит ли он излишне восторженно.

Хотите улучшить свои ИИ-тексты? Скормите весь список нейросети как часть промпта со словами «избегай пунктов из этого списка». Результат будет заметно более человечным.

Некоторые авторы уже используют список как «анти-промпт» — вставляют его в ChatGPT или Claude с инструкцией избегать перечисленных паттернов.

Гонка вооружений

Простые хаки для детекции ИИ быстро теряют актуальность. Недавно исследователи заметили, что LLM слишком часто используют тире — и вот уже писатели жалуются, что их обвиняют в использовании ChatGPT за любовь к этому знаку препинания. (Я ранее писал, что я часто использую «—» еще со школы; нынче стало как-то некомфортно это делать, но прекращать не собираюсь.)

Подход Wikipedia более устойчив, потому что фокусируется на глубинных паттернах письма. Эти привычки нейросетей изменить сложнее — они встроены в саму архитектуру обучения.

В любом случае, список стоит изучить каждому, кто имеет дело с текстами. Это честная попытка разобраться в том, что делает текст машинным — и как этого избежать.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка