Подписаться
Опубликовано

Как ИИ создаёт видео: разбираем технологию

Автор
  • Имя
    Нейрократия
    Telegram

Как ИИ создаёт видео: разбираем технологию 

В последний год генерация видео из текста получила заметный импульс. OpenAI показала Sora, Google DeepMind выкатила Veo 3, Runway запустила Gen-4. Демо-ролики выглядят впечатляюще, а Netflix даже успел использовать ИИ-эффекты в сериале «Этернавт». Давайте глянем, что там под капотом у нашумевших видео-генераторов.

Стоит помнить, что публике обычно показывают вишенку на торте — тщательно отобранные клипы на промо-страницах, но в целом примерно все могут сгенерировать что-то более менее приличное. Обратная сторона — ленты соцсетей наполняются ИИ-слопом и фейковыми новостями, а на генерацию видео уходит колоссальное количество энергии. Но как это всё работает?

Анатомия видео-ИИ: латентные диффузионные трансформеры

Звучит сложновато, но попробую объянить.

1️⃣ Шаг 1: Диффузия — от шума к картинке

Представьте, что вы берёте изображение и постепенно добавляете на него случайные пиксели, пока оно не превратится в хаотичный шум, как на старом телевизоре. Диффузионная модель — это нейросеть, обученная делать обратное: превращать шум в осмысленное изображение.

Она стартует со случайного набора пикселей и шаг за шагом «очищает» его, приближаясь к тому, что видела в обучающих данных. Чтобы картинка соответствовала вашему запросу (например, «единорог ест спагетти»), процесс направляет языковая модель, которая сверяет результат с текстовым описанием.

2️⃣ Шаг 2: Латентное пространство — сжимаем для скорости

Обработка миллионов пикселей в каждом кадре видео — крайне энергозатратный процесс. Поэтому большинство современных моделей используют латентную диффузию.

Вместо работы с сырыми кадрами, модель сжимает их в математический код — латентное пространство. В этом сжатом виде хранятся только ключевые особенности изображения. Это похоже на то, как видео сжимается для стриминга в интернете. Процесс «очистки» от шума происходит уже в этом компактном пространстве, что делает его гораздо эффективнее. Хотя энергии всё равно уходит очень много.

3️⃣ Шаг 3: Трансформеры

Остаётся одна проблема: как сделать так, чтобы объекты в видео не мерцали, не исчезали и не меняли форму от кадра к кадру? Здесь на помощь приходят трансформеры — архитектура, которая лежит в основе больших языковых моделей вроде GPT.

Трансформеры отлично работают с последовательностями данных. OpenAI в Sora придумала, как «нарезать» видео на пространственно-временные кубы («spacetime patches»). Трансформер обрабатывает эти кубы как последовательность, обеспечивая смысловую и визуальную связность между кадрами. Именно это и позволяет объектам сохранять свою форму и логично перемещаться в пространстве.

А что со звуком?

Долгое время генеративные видео были немыми. Прорывом здесь стал Veo 3 от Google DeepMind. Их модель научилась генерировать видео и аудио одновременно.

Технологически это решено так: аудио и видео сжимаются в единый блок данных внутри латентного пространства. Диффузионная модель создаёт их синхронно, обеспечивая точное совпадение звука с картинкой — от диалогов до фоновых шумов. Как выразился CEO DeepMind Демис Хассабис: «Мы выходим из эры немого кино в генерации видео».

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #объясняю

Опубликовано

Что такое эмбеддинги — фундамент современных LLM

Что такое эмбеддинги в современных LLM и как они работают
Опубликовано

Почему китайские ИИ захватили лидерство 🇨🇳

Почему китайские ИИ лидируют в открытом коде: анализ рынка и структурных факторов
Опубликовано

нейросеть в баре может ли ИИ шутить

может ли ИИ шутить как человек, примеры AI юмора и ограничения
Опубликовано

Прогноз обновлён. Нейросетью

Прогноз погоды нейросетью: как ИИ ускоряет и улучшает метеорологию
Опубликовано

Когнитивный долг: как LLM ослабляет мозг

Когнитивный долг от использования LLM: как ИИ снижает мозговую активность

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка