- Опубликовано
Как ИИ создаёт видео: разбираем технологию
- Автор
- Имя
- Нейрократия
- Telegram
- Нейрократия582 подписчика231 постПро технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev
Как ИИ создаёт видео: разбираем технологию
В последний год генерация видео из текста получила заметный импульс. OpenAI показала Sora, Google DeepMind выкатила Veo 3, Runway запустила Gen-4. Демо-ролики выглядят впечатляюще, а Netflix даже успел использовать ИИ-эффекты в сериале «Этернавт». Давайте глянем, что там под капотом у нашумевших видео-генераторов.
Стоит помнить, что публике обычно показывают вишенку на торте — тщательно отобранные клипы на промо-страницах, но в целом примерно все могут сгенерировать что-то более менее приличное. Обратная сторона — ленты соцсетей наполняются ИИ-слопом и фейковыми новостями, а на генерацию видео уходит колоссальное количество энергии. Но как это всё работает?
Анатомия видео-ИИ: латентные диффузионные трансформеры
Звучит сложновато, но попробую объянить.
1️⃣ Шаг 1: Диффузия — от шума к картинке
Представьте, что вы берёте изображение и постепенно добавляете на него случайные пиксели, пока оно не превратится в хаотичный шум, как на старом телевизоре. Диффузионная модель — это нейросеть, обученная делать обратное: превращать шум в осмысленное изображение.
Она стартует со случайного набора пикселей и шаг за шагом «очищает» его, приближаясь к тому, что видела в обучающих данных. Чтобы картинка соответствовала вашему запросу (например, «единорог ест спагетти»), процесс направляет языковая модель, которая сверяет результат с текстовым описанием.
2️⃣ Шаг 2: Латентное пространство — сжимаем для скорости
Обработка миллионов пикселей в каждом кадре видео — крайне энергозатратный процесс. Поэтому большинство современных моделей используют латентную диффузию.
Вместо работы с сырыми кадрами, модель сжимает их в математический код — латентное пространство. В этом сжатом виде хранятся только ключевые особенности изображения. Это похоже на то, как видео сжимается для стриминга в интернете. Процесс «очистки» от шума происходит уже в этом компактном пространстве, что делает его гораздо эффективнее. Хотя энергии всё равно уходит очень много.
3️⃣ Шаг 3: Трансформеры
Остаётся одна проблема: как сделать так, чтобы объекты в видео не мерцали, не исчезали и не меняли форму от кадра к кадру? Здесь на помощь приходят трансформеры — архитектура, которая лежит в основе больших языковых моделей вроде GPT.
Трансформеры отлично работают с последовательностями данных. OpenAI в Sora придумала, как «нарезать» видео на пространственно-временные кубы («spacetime patches»). Трансформер обрабатывает эти кубы как последовательность, обеспечивая смысловую и визуальную связность между кадрами. Именно это и позволяет объектам сохранять свою форму и логично перемещаться в пространстве.
А что со звуком?
Долгое время генеративные видео были немыми. Прорывом здесь стал Veo 3 от Google DeepMind. Их модель научилась генерировать видео и аудио одновременно.
Технологически это решено так: аудио и видео сжимаются в единый блок данных внутри латентного пространства. Диффузионная модель создаёт их синхронно, обеспечивая точное совпадение звука с картинкой — от диалогов до фоновых шумов. Как выразился CEO DeepMind Демис Хассабис: «Мы выходим из эры немого кино в генерации видео».
Предыдущий пост
- Опубликовано
Activepieces: новый n8n?
Следующий пост
- Опубликовано
OpenAI пытается отучить модели врать
Закрепленные
Из подборки #объясняю
- Опубликовано
Что такое эмбеддинги — фундамент современных LLM
- Опубликовано
Как спор о Боге и царе в России породил Google
- Опубликовано
Почему китайские ИИ захватили лидерство 🇨🇳
- Опубликовано
нейросеть в баре может ли ИИ шутить
- Опубликовано
Прогноз обновлён. Нейросетью
- Опубликовано
Когнитивный долг: как LLM ослабляет мозг
Свежие посты
- Опубликовано
Внутренности Клода
- Опубликовано
Как меняется устройство мысли
- Опубликовано
Google ускоряет LLM в 8 раз
- Опубликовано
Архив, эпизоды и граф: память агента изнутри
- Опубликовано
Я делаю personal-first ассистента. Вот зачем
- Опубликовано
ИИ победил
- Опубликовано
Нейросети будут платить налоги
- Опубликовано

















