- Опубликовано
Призраки нейросетей: vegetative electron microscopy
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Призраки нейросетей
или
Как случайная ошибка из 1950-х заразила современные ИИ-модели и теперь преследует науку.
Что такое vegetative electron microscopy («вегетативная электронная микроскопия»)? С технической точки зрения — ничего.
Термин бессмысленный и возник в результате фантастической цепочки ошибок. Но сегодня он встречается в научных статьях и надолго засел в «мозгах» современных ИИ-систем.
Группа исследователей опубликовала материал с историей возникновения артефакта на ScienceAlert. Истоки проблемы уходят в журналы 1950-х годов. Тогда две работы, опубликованные в авторитетном журнале Bacteriological Reviews, были некорректно оцифрованы при сканировании: случайно слились слова "vegetative" из одной колонки и "electron microscopy" из соседней. Этот бессмысленный термин случайно сохранился на десятилетия, став своего рода «цифровым ископаемым».
Следующий шаг произошёл десятки лет спустя в Иране, когда исследователи, очевидно, переводя с фарси, перепутали термины «сканирующая» и «вегетативная» (в фарси они отличаются всего одной точкой). Так фантомный термин «vegetative electron microscopy» проник в научные статьи 2017 и 2019 годов и закрепился уже как якобы реальный метод исследования.
Но настоящий взрыв распространения этой ошибки начался в последние годы, когда термин попал в популярные наборы данных для обучения нейросетей — в частности, в CommonCrawl, гигантский архив страниц интернета, которыми тренируются современные языковые модели.
В ходе экспериментов исследователи установили, что более старые нейросети (например, GPT-2 или BERT) не знают этого словосочетания. Но начиная с модели GPT-3 термин "vegetative electron microscopy" стал стабильно появляться в генерируемых текстах. Ошибочный термин не устранили даже в новейших моделях.
Сегодня найдено уже 22 научные работы с этим термином — некоторые из них отозваны, другие скорректированы после долгих дискуссий с издателями. Но очевидно, что таких ошибок внутри огромных обучающих баз данных могут быть сотни, если не тысячи — и мы даже не знаем, насколько сильно эти «цифровые ископаемые» искажают накопленное знание.
Почему проблема крайне сложна?
— Размеры обучающих данных зачастую огромны. Например, CommonCrawl весит миллионы гигабайт. Прочесать её и удалить подобные ошибки почти невозможно.
— Непрозрачность коммерческих нейросетей: компании вроде OpenAI отказываются раскрывать, на каких именно текстах учились их модели, что затрудняет поиск корня проблемы.
— Простое блокирование ошибочного термина не решает проблему, поскольку уже существуют тексты (такие как статья ScienceAlert и этот пост), где он осознанно обсуждается.
Уже есть прецеденты, когда автоматизированные системы отслеживания статей (например, Problematic Paper Screener) маркируют этот термин как потенциально ИИ-сгенерированный. Но что делать с тысячами ещё не найденных «фантомных терминов», которые могут тихо жить в глубине моделей и влиять на реальную науку?
Эта история не просто анекдотична. Она ставит вопросы о целостности и достоверности тех знаний, которые сегодня всё чаще производятся и распространяются с помощью ИИ (я про это писал). Пока нет ответа, как очистить ИИ-модели от таких «цифровых ископаемых» — а значит, науке придётся научиться жить и работать в окружении возможных ошибок и «галлюцинаций» нейронок.
Закрепленные
Из подборки #безопасность
- Опубликовано
Анонимизация ИИ — фикция
- Опубликовано
ИИ-агенты оказались импульсивными покупателями
- Опубликовано
Чем больше LLM, тем легче её взломать
- Опубликовано
OpenAI пытается отучить модели врать
- Опубликовано
Как на самом деле создается личность ИИ
- Опубликовано
Как распознать ИИ‑текст: чек‑лист Wikipedia
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















