Опубликовано: понедельник, 2 июня 2025 г.

Как шумоподавление помогает улучшить нейросети

Автор

Имя
Нейрократия
Telegram
telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Как шумоподавление помогает улучшить нейросети

Архитектура Transformer стала стандартом де-факто практически для всех современных языковых моделей. Центральный механизм, ответственный за их успех — модуль внимания (Attention), позволяющий модели динамически «концентрироваться» на нужных токенах, выявляя взаимосвязи в данных.

Но трансформеры не идеальны — они систематически расходуют часть ресурсов внимания на незначимый контекст. Простым языком: это как если бы вы читали книгу и тратили время на анализ ненужных деталей оформления страниц или расстановку запятых вместо содержания текста.

Недавняя научная работа предлагает кардинальное решение — Differential Transformer. Новая архитектура заимствует идеи из электроники, конкретно — принцип дифференциального усилителя, который используется, например, в аудиотехнике для активного шумоподавления.

Как это устроено?

Авторы создают два независимых набора (две «группы») внимания: один набор отвечает за общий контекст, а второй — за выделение избыточного, ненужного шума. Затем «шумовое» внимание вычитается из полезного, что позволяет модели избавиться от лишнего, оставив только важную информацию. Оригинальное название этого подхода — Differential Attention.

На тестах модель показывает хорошие результаты:

— 📚 Значительно улучшилось моделирование длинного контекста (контекст в 64К токенов понимается лучше, чем в своей обычной версии).

— 🎯 Показан рост качества извлечения важной информации и снижение частоты «галлюцинаций» модели.

— 📊 Архитектура гораздо более эффективна: чтобы достичь производительности классического трансформера, требуется примерно на 35% меньше данных обучения или параметров модели. Это огромный выигрыш в экономии ресурсов.

Также Differential Transformer в полной мере совместим с FlashAttention, благодаря чему можно реализовать его и на железном уровне практически без дополнительных вычислительных издержек.

Фактически авторы применили элегантный принцип дифференциального усиления сигналов из электроники и получили очень убедительные результаты в контексте машинного обучения. Такой междисциплинарный подход в разработке нейронных архитектур пока что редкость — и он заслуживает внимания.

Подробнее о научном подходе и тестах — в исходной работе. А на Github, кстати, есть имплементация.

/ Не запрещена в РФ

Обсудить в Telegram

Нейрократия

582 подписчика

235 постов

Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev