Подписаться
Опубликовано

Призраки нейросетей: vegetative electron microscopy

Автор
  • Имя
    Нейрократия
    Telegram

Призраки нейросетей или Как случайная ошибка из 1950-х заразила современные ИИ-модели и теперь преследует науку.

Что такое vegetative electron microscopy («вегетативная электронная микроскопия»)? С технической точки зрения — ничего.

Термин бессмысленный и возник в результате фантастической цепочки ошибок. Но сегодня он встречается в научных статьях и надолго засел в «мозгах» современных ИИ-систем.

Группа исследователей опубликовала материал с историей возникновения артефакта на ScienceAlert. Истоки проблемы уходят в журналы 1950-х годов. Тогда две работы, опубликованные в авторитетном журнале Bacteriological Reviews, были некорректно оцифрованы при сканировании: случайно слились слова "vegetative" из одной колонки и "electron microscopy" из соседней. Этот бессмысленный термин случайно сохранился на десятилетия, став своего рода «цифровым ископаемым».

Следующий шаг произошёл десятки лет спустя в Иране, когда исследователи, очевидно, переводя с фарси, перепутали термины «сканирующая» и «вегетативная» (в фарси они отличаются всего одной точкой). Так фантомный термин «vegetative electron microscopy» проник в научные статьи 2017 и 2019 годов и закрепился уже как якобы реальный метод исследования.

Но настоящий взрыв распространения этой ошибки начался в последние годы, когда термин попал в популярные наборы данных для обучения нейросетей — в частности, в CommonCrawl, гигантский архив страниц интернета, которыми тренируются современные языковые модели.

В ходе экспериментов исследователи установили, что более старые нейросети (например, GPT-2 или BERT) не знают этого словосочетания. Но начиная с модели GPT-3 термин "vegetative electron microscopy" стал стабильно появляться в генерируемых текстах. Ошибочный термин не устранили даже в новейших моделях.

Сегодня найдено уже 22 научные работы с этим термином — некоторые из них отозваны, другие скорректированы после долгих дискуссий с издателями. Но очевидно, что таких ошибок внутри огромных обучающих баз данных могут быть сотни, если не тысячи — и мы даже не знаем, насколько сильно эти «цифровые ископаемые» искажают накопленное знание.

Почему проблема крайне сложна?

Размеры обучающих данных зачастую огромны. Например, CommonCrawl весит миллионы гигабайт. Прочесать её и удалить подобные ошибки почти невозможно.

Непрозрачность коммерческих нейросетей: компании вроде OpenAI отказываются раскрывать, на каких именно текстах учились их модели, что затрудняет поиск корня проблемы.

Простое блокирование ошибочного термина не решает проблему, поскольку уже существуют тексты (такие как статья ScienceAlert и этот пост), где он осознанно обсуждается.

Уже есть прецеденты, когда автоматизированные системы отслеживания статей (например, Problematic Paper Screener) маркируют этот термин как потенциально ИИ-сгенерированный. Но что делать с тысячами ещё не найденных «фантомных терминов», которые могут тихо жить в глубине моделей и влиять на реальную науку?

Эта история не просто анекдотична. Она ставит вопросы о целостности и достоверности тех знаний, которые сегодня всё чаще производятся и распространяются с помощью ИИ (я про это писал). Пока нет ответа, как очистить ИИ-модели от таких «цифровых ископаемых» — а значит, науке придётся научиться жить и работать в окружении возможных ошибок и «галлюцинаций» нейронок.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #безопасность

Опубликовано

Анонимизация ИИ — фикция

анонимизация ИИ фикция: почему чат‑боты не защищают личные данные
Опубликовано

ИИ-агенты оказались импульсивными покупателями

ИИ-агенты импульсивные покупатели: проблемы выбора, скорость vs качество, уязвимость к манипуляциям
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как на самом деле создается личность ИИ

как создаётся личность ИИ и какие риски это несёт

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка