Подписаться
Опубликовано

Как шумоподавление помогает улучшить нейросети

Автор
  • Имя
    Нейрократия
    Telegram

Как шумоподавление помогает улучшить нейросети

Архитектура Transformer стала стандартом де-факто практически для всех современных языковых моделей. Центральный механизм, ответственный за их успех — модуль внимания (Attention), позволяющий модели динамически «концентрироваться» на нужных токенах, выявляя взаимосвязи в данных.

Но трансформеры не идеальны — они систематически расходуют часть ресурсов внимания на незначимый контекст. Простым языком: это как если бы вы читали книгу и тратили время на анализ ненужных деталей оформления страниц или расстановку запятых вместо содержания текста.

Недавняя научная работа предлагает кардинальное решение — Differential Transformer. Новая архитектура заимствует идеи из электроники, конкретно — принцип дифференциального усилителя, который используется, например, в аудиотехнике для активного шумоподавления.

Как это устроено?

Авторы создают два независимых набора (две «группы») внимания: один набор отвечает за общий контекст, а второй — за выделение избыточного, ненужного шума. Затем «шумовое» внимание вычитается из полезного, что позволяет модели избавиться от лишнего, оставив только важную информацию. Оригинальное название этого подхода — Differential Attention.

На тестах модель показывает хорошие результаты:

— 📚 Значительно улучшилось моделирование длинного контекста (контекст в 64К токенов понимается лучше, чем в своей обычной версии).

— 🎯 Показан рост качества извлечения важной информации и снижение частоты «галлюцинаций» модели.

— 📊 Архитектура гораздо более эффективна: чтобы достичь производительности классического трансформера, требуется примерно на 35% меньше данных обучения или параметров модели. Это огромный выигрыш в экономии ресурсов.

Также Differential Transformer в полной мере совместим с FlashAttention, благодаря чему можно реализовать его и на железном уровне практически без дополнительных вычислительных издержек.

Фактически авторы применили элегантный принцип дифференциального усиления сигналов из электроники и получили очень убедительные результаты в контексте машинного обучения. Такой междисциплинарный подход в разработке нейронных архитектур пока что редкость — и он заслуживает внимания.

Подробнее о научном подходе и тестах — в исходной работе. А на Github, кстати, есть имплементация.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #объясняю

Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство
Опубликовано

Что такое эмбеддинги — фундамент современных LLM

Что такое эмбеддинги в современных LLM и как они работают
Опубликовано

Почему китайские ИИ захватили лидерство 🇨🇳

Почему китайские ИИ лидируют в открытом коде: анализ рынка и структурных факторов
Опубликовано

нейросеть в баре может ли ИИ шутить

может ли ИИ шутить как человек, примеры AI юмора и ограничения
Опубликовано

Прогноз обновлён. Нейросетью

Прогноз погоды нейросетью: как ИИ ускоряет и улучшает метеорологию

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка