Опубликовано: вторник, 29 апреля 2025 г.

Призраки нейросетей: vegetative electron microscopy

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Призраки нейросетей или Как случайная ошибка из 1950-х заразила современные ИИ-модели и теперь преследует науку.

Что такое vegetative electron microscopy («вегетативная электронная микроскопия»)? С технической точки зрения — ничего.

Термин бессмысленный и возник в результате фантастической цепочки ошибок. Но сегодня он встречается в научных статьях и надолго засел в «мозгах» современных ИИ-систем.

Группа исследователей опубликовала материал с историей возникновения артефакта на ScienceAlert. Истоки проблемы уходят в журналы 1950-х годов. Тогда две работы, опубликованные в авторитетном журнале Bacteriological Reviews, были некорректно оцифрованы при сканировании: случайно слились слова "vegetative" из одной колонки и "electron microscopy" из соседней. Этот бессмысленный термин случайно сохранился на десятилетия, став своего рода «цифровым ископаемым».

Следующий шаг произошёл десятки лет спустя в Иране, когда исследователи, очевидно, переводя с фарси, перепутали термины «сканирующая» и «вегетативная» (в фарси они отличаются всего одной точкой). Так фантомный термин «vegetative electron microscopy» проник в научные статьи 2017 и 2019 годов и закрепился уже как якобы реальный метод исследования.

Но настоящий взрыв распространения этой ошибки начался в последние годы, когда термин попал в популярные наборы данных для обучения нейросетей — в частности, в CommonCrawl, гигантский архив страниц интернета, которыми тренируются современные языковые модели.

В ходе экспериментов исследователи установили, что более старые нейросети (например, GPT-2 или BERT) не знают этого словосочетания. Но начиная с модели GPT-3 термин "vegetative electron microscopy" стал стабильно появляться в генерируемых текстах. Ошибочный термин не устранили даже в новейших моделях.

Сегодня найдено уже 22 научные работы с этим термином — некоторые из них отозваны, другие скорректированы после долгих дискуссий с издателями. Но очевидно, что таких ошибок внутри огромных обучающих баз данных могут быть сотни, если не тысячи — и мы даже не знаем, насколько сильно эти «цифровые ископаемые» искажают накопленное знание.

Почему проблема крайне сложна?

— Размеры обучающих данных зачастую огромны. Например, CommonCrawl весит миллионы гигабайт. Прочесать её и удалить подобные ошибки почти невозможно.

— Непрозрачность коммерческих нейросетей: компании вроде OpenAI отказываются раскрывать, на каких именно текстах учились их модели, что затрудняет поиск корня проблемы.

— Простое блокирование ошибочного термина не решает проблему, поскольку уже существуют тексты (такие как статья ScienceAlert и этот пост), где он осознанно обсуждается.

Уже есть прецеденты, когда автоматизированные системы отслеживания статей (например, Problematic Paper Screener) маркируют этот термин как потенциально ИИ-сгенерированный. Но что делать с тысячами ещё не найденных «фантомных терминов», которые могут тихо жить в глубине моделей и влиять на реальную науку?

Эта история не просто анекдотична. Она ставит вопросы о целостности и достоверности тех знаний, которые сегодня всё чаще производятся и распространяются с помощью ИИ (я про это писал). Пока нет ответа, как очистить ИИ-модели от таких «цифровых ископаемых» — а значит, науке придётся научиться жить и работать в окружении возможных ошибок и «галлюцинаций» нейронок.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev