Подписаться
Опубликовано

Как шумоподавление помогает улучшить нейросети

Автор
  • Имя
    Нейрократия
    Telegram

Как шумоподавление помогает улучшить нейросети

Архитектура Transformer стала стандартом де-факто практически для всех современных языковых моделей. Центральный механизм, ответственный за их успех — модуль внимания (Attention), позволяющий модели динамически «концентрироваться» на нужных токенах, выявляя взаимосвязи в данных.

Но трансформеры не идеальны — они систематически расходуют часть ресурсов внимания на незначимый контекст. Простым языком: это как если бы вы читали книгу и тратили время на анализ ненужных деталей оформления страниц или расстановку запятых вместо содержания текста.

Недавняя научная работа предлагает кардинальное решение — Differential Transformer. Новая архитектура заимствует идеи из электроники, конкретно — принцип дифференциального усилителя, который используется, например, в аудиотехнике для активного шумоподавления.

Как это устроено?

Авторы создают два независимых набора (две «группы») внимания: один набор отвечает за общий контекст, а второй — за выделение избыточного, ненужного шума. Затем «шумовое» внимание вычитается из полезного, что позволяет модели избавиться от лишнего, оставив только важную информацию. Оригинальное название этого подхода — Differential Attention.

На тестах модель показывает хорошие результаты:

— 📚 Значительно улучшилось моделирование длинного контекста (контекст в 64К токенов понимается лучше, чем в своей обычной версии).

— 🎯 Показан рост качества извлечения важной информации и снижение частоты «галлюцинаций» модели.

— 📊 Архитектура гораздо более эффективна: чтобы достичь производительности классического трансформера, требуется примерно на 35% меньше данных обучения или параметров модели. Это огромный выигрыш в экономии ресурсов.

Также Differential Transformer в полной мере совместим с FlashAttention, благодаря чему можно реализовать его и на железном уровне практически без дополнительных вычислительных издержек.

Фактически авторы применили элегантный принцип дифференциального усиления сигналов из электроники и получили очень убедительные результаты в контексте машинного обучения. Такой междисциплинарный подход в разработке нейронных архитектур пока что редкость — и он заслуживает внимания.

Подробнее о научном подходе и тестах — в исходной работе. А на Github, кстати, есть имплементация.

/ Не запрещена в РФ

Нейрократия
582 подписчика
235 постов
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #объясняю

Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство
Опубликовано

Что такое эмбеддинги — фундамент современных LLM

Что такое эмбеддинги в современных LLM и как они работают
Опубликовано

Почему китайские ИИ захватили лидерство 🇨🇳

Почему китайские ИИ лидируют в открытом коде: анализ рынка и структурных факторов
Опубликовано

нейросеть в баре может ли ИИ шутить

может ли ИИ шутить как человек, примеры AI юмора и ограничения
Опубликовано

Прогноз обновлён. Нейросетью

Прогноз погоды нейросетью: как ИИ ускоряет и улучшает метеорологию

Свежие посты

Опубликовано

OpenAI захватили гоблины

OpenAI захватили гоблиныЯ не шучу, абсолютно серьезно. Ладно, не OpenAI, а модели ChatGPT.Вчера OpenAI опубликовала странный разбор: почему...
Опубликовано

Зачем ИИ учат симулировать мир

Зачем ИИ учат симулировать мирOdyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но...
Опубликовано

Общество будущего от OpenAI: что с ним не так

OpenAI предлагает политику ИИ, но сохраняет выгоду компаний, усиливает концентрацию и создаёт барьеры, не решая риски безопасности.
Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.