Зачем ИИ учат симулировать мир

Odyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но логика другая: система не собирает готовый ролик по промпту, а шаг за шагом предсказывает следующее состояние сцены и позволяет продолжать симуляцию в реальном времени.

Компания продает не «красивое видео», а управляемую среду, где будущее кадра зависит от предыдущего состояния и действия пользователя. Для игр это звучит как интерактивная сцена. Для робототехники как тренировочная среда. Для обороны и медицины как повод внимательно смотреть на качество проверки, потому что красивая физика на демо ещё не равна надежной модели причинно-следственных связей.

В релизе есть несколько конкретных чисел. 2 Max примерно в 3 раза крупнее 2 Pro и обучалась с 10-кратным ростом вычислений. На физическом разделе VBench 2 результат вырос с 49,67 до 58,52. На PAI-Bench Physics с 91,67 до 93,02. Компания также утверждает, что все показанные симуляции работали в реальном времени и могли продолжаться более 120 секунд.

Технически модель построена как авторегрессионный диффузионный трансформер. Важные детали: длинный контекст, каузальное внимание, управление действиями через латентные представления, сопоставление потоков в непрерывном латентном пространстве и сокращение числа шагов подавления шума. Обучение шло на нескольких сотнях NVIDIA B200.

Наиболее интересная часть здесь не картинка. Создатели проводят аналогию с языковыми моделями: предсказание следующего токена дало системам способность имитировать рассуждение, а предсказание следующего состояния мира должно дать физическую интуицию. Это амбициозная гипотеза, и она хорошо объясняет, почему вокруг моделей мира сейчас столько инвесторского и исследовательского интереса.

Но проверять всё это нужно осторожно. VBench и PAI-Bench оценивают согласованность сгенерированного видео, а не пригодность системы для реальной робототехники или научного моделирования. Стабильный фон, гладкое движение и правдоподобная механика полезны, но они не доказывают, что модель понимает причинные связи в строгом смысле.

Сравнение с Sora, Veo, Kling и Runway тоже устроено выгодно для разработчиков 2 Max. Эти системы исключены из таблицы как двунаправленные видеомодели, потому что они не рассчитаны на интерактивное предсказание будущих состояний. Аргумент логичный, но поле сравнения получается меньше: речь идет о категории, которую сама компания и пытается закрепить как отдельную.

Еще один момент: модель доступна в частной бете для партнеров. Значит, независимая проверка пока ограничена. Главные вопросы будут в длинных сценариях, где пользователь делает странные действия, сцена постепенно накапливает ошибки, а физическая правдоподобность начинает конфликтовать с управляемостью.

Релиз всё равно значимый. Генеративное видео постепенно делится на две линии: производство готового визуального контента и интерактивные симуляторы среды. Первая линия обслуживает медиа. Вторая может стать основой для тренажеров, игр, агентов, робототехники и систем планирования.

Гонка за моделями мира стала отдельным направлением. Там конкурирует не столько красота кадров, сколько устойчивость причинности, горизонт симуляции, управляемость и цена генерации в реальном времени.

/ Не запрещена в РФ