Подписаться
Опубликовано

Генерация видео в реальном времени — новая модель

Автор
  • Имя
    Нейрократия
    Telegram

Генерация видео в реальном времени — новая модель

У нас очередной громкий запуск: новая модель генерации видео LTX-Video от ребят из Lightricks.

Эта модель — первая в мире на основе DiT-архитектуры (Diffusion Transformer), которая генерирует видео в реальном времени (30 кадров в секунду) с рекордной детализацией — до 1216×704 точек. Она создана специально с упором на гибкость работы и мощные возможности постобработки.

👉 Пробуйте онлайн в LTX Studio 👉 Изучайте детали на GitHub 👉 Читайте научную статью на Arxiv

Интерфейс позволяет не только создавать видео из текста (text-to-video) и изображений (image-to-video), но также делать видео-видео преобразования (video-to-video), расширять существующие видеоролики вперёд и назад, использовать ключевые кадры для точного управления и комбинировать любые из доступных типов условия генерации.

Что технологически интересного внутри?

Новая версия LTX-Video (v0.9.7, модель 13B) – это несколько значимых инноваций под капотом:

— Мультискейловый рендеринг

Lightricks разработали уникальный пайплайн, который сперва быстро генерирует базовое видео в низком разрешении, захватывая движение и освещение, а затем использует улучшение деталей и текстур с временным контекстом. В итоге визуально чёткое и качественное видео получается до 30 раз быстрее, чем простая генерация сразу в высоком разрешении.

— STG (Spatial-Temporal Guidance)

Разработки из свежего исследования Hyung et al. внедрены для улучшения стабильности и устранения фликеринга (мерцаний и скачков) видео за счёт оптимизации процесса шумоподавления. Для людей, плотно работающих со Stable Diffusion и другими диффузионными техниками, это подарок — модель лучше понимает физические законы и создаёт реалистичное движение с меньшим количеством ошибок.

— TeaCache: Ускорение вывода в 2 раза

Продвинутая система кеширования промежуточных вычислений от Liu et al. ускоряет генерацию видео примерно в 2 раза практически без потери качества.

Кстати, Lightricks разместили веса и код в открытом доступе на GitHub, так что теперь любой профессионал, исследователь или энтузиаст может спокойно поиграть с моделью у себя локально или встроить в собственный процесс.

Уже сейчас можно использовать LTX-Video внутри профессионального продукта LTX Studio, предназначенного специально студиям и командам, работающим с видеопродакшеном.

Поработав с моделью, отмечу несколько моментов:

✅ Плюсы

— Реальный realtime: модель объективно выдаёт видеокартинку быстрее, чем её можно посмотреть. Впервые генеративное качество доступно в режиме «живой» работы. — Высокая стабильность видео и минимальное количество наглядных артефактов. — Быстрое освоение и интуитивные интерфейсы.

❗️ Минусы

— При всех усилиях и оптимизациях потребуется мощный GPU (желательно H100, если хотите прямо realtime на максимальных настройках). — В некоторых особо сложных случаях всё ещё встречаются ошибки движения и физики объектов.

/ Не запрещена в РФ

Нейрократия
582 подписчика
231 пост
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Из подборки #обзор

Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка
Опубликовано

Чем больше LLM, тем легче её взломать

Сколько отравленных примеров нужно для взлома больших LLM и как это влияет на безопасность?
Опубликовано

Как ИИ создаёт видео: разбираем технологию

Как ИИ создает видео: технология генерации видео из текста, диффузионные трансформеры и латентное пространство

Свежие посты

Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.
Опубликовано

Я делаю personal-first ассистента. Вот зачем

Как работает personal-first AI ассистент Volna: память, тайминг, интеграции и health‑трекинг
Опубликовано

Нейросети будут платить налоги

как нейросети будут платить налоги и какие правила регулирования ИИ
Опубликовано

AI 2025: агенты, ролплей, китайская экспансия

Отчет OpenRouter о трендах AI 2025: рольплей, китайские модели, AI‑агенты, рост reasoning и изменение рынка