- Опубликовано
Как шумоподавление помогает улучшить нейросети
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Как шумоподавление помогает улучшить нейросети
Архитектура Transformer стала стандартом де-факто практически для всех современных языковых моделей. Центральный механизм, ответственный за их успех — модуль внимания (Attention), позволяющий модели динамически «концентрироваться» на нужных токенах, выявляя взаимосвязи в данных.
Но трансформеры не идеальны — они систематически расходуют часть ресурсов внимания на незначимый контекст. Простым языком: это как если бы вы читали книгу и тратили время на анализ ненужных деталей оформления страниц или расстановку запятых вместо содержания текста.
Недавняя научная работа предлагает кардинальное решение — Differential Transformer. Новая архитектура заимствует идеи из электроники, конкретно — принцип дифференциального усилителя, который используется, например, в аудиотехнике для активного шумоподавления.
Как это устроено?
Авторы создают два независимых набора (две «группы») внимания: один набор отвечает за общий контекст, а второй — за выделение избыточного, ненужного шума. Затем «шумовое» внимание вычитается из полезного, что позволяет модели избавиться от лишнего, оставив только важную информацию. Оригинальное название этого подхода — Differential Attention.
На тестах модель показывает хорошие результаты:
— 📚 Значительно улучшилось моделирование длинного контекста (контекст в 64К токенов понимается лучше, чем в своей обычной версии).
— 🎯 Показан рост качества извлечения важной информации и снижение частоты «галлюцинаций» модели.
— 📊 Архитектура гораздо более эффективна: чтобы достичь производительности классического трансформера, требуется примерно на 35% меньше данных обучения или параметров модели. Это огромный выигрыш в экономии ресурсов.
Также Differential Transformer в полной мере совместим с FlashAttention, благодаря чему можно реализовать его и на железном уровне практически без дополнительных вычислительных издержек.
Фактически авторы применили элегантный принцип дифференциального усиления сигналов из электроники и получили очень убедительные результаты в контексте машинного обучения. Такой междисциплинарный подход в разработке нейронных архитектур пока что редкость — и он заслуживает внимания.
Подробнее о научном подходе и тестах — в исходной работе. А на Github, кстати, есть имплементация.
Закрепленные
Из подборки #объясняю
- Опубликовано
Как ИИ создаёт видео: разбираем технологию
- Опубликовано
Что такое эмбеддинги — фундамент современных LLM
- Опубликовано
Как спор о Боге и царе в России породил Google
- Опубликовано
Почему китайские ИИ захватили лидерство 🇨🇳
- Опубликовано
нейросеть в баре может ли ИИ шутить
- Опубликовано
Прогноз обновлён. Нейросетью
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















