Подписаться
Опубликовано

Зачем ИИ учат симулировать мир

Автор
  • Имя
    Нейрократия
    Telegram

Зачем ИИ учат симулировать мир

Odyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но логика другая: система не собирает готовый ролик по промпту, а шаг за шагом предсказывает следующее состояние сцены и позволяет продолжать симуляцию в реальном времени.

Компания продает не «красивое видео», а управляемую среду, где будущее кадра зависит от предыдущего состояния и действия пользователя. Для игр это звучит как интерактивная сцена. Для робототехники как тренировочная среда. Для обороны и медицины как повод внимательно смотреть на качество проверки, потому что красивая физика на демо ещё не равна надежной модели причинно-следственных связей.

В релизе есть несколько конкретных чисел. 2 Max примерно в 3 раза крупнее 2 Pro и обучалась с 10-кратным ростом вычислений. На физическом разделе VBench 2 результат вырос с 49,67 до 58,52. На PAI-Bench Physics с 91,67 до 93,02. Компания также утверждает, что все показанные симуляции работали в реальном времени и могли продолжаться более 120 секунд.

Технически модель построена как авторегрессионный диффузионный трансформер. Важные детали: длинный контекст, каузальное внимание, управление действиями через латентные представления, сопоставление потоков в непрерывном латентном пространстве и сокращение числа шагов подавления шума. Обучение шло на нескольких сотнях NVIDIA B200.

Наиболее интересная часть здесь не картинка. Создатели проводят аналогию с языковыми моделями: предсказание следующего токена дало системам способность имитировать рассуждение, а предсказание следующего состояния мира должно дать физическую интуицию. Это амбициозная гипотеза, и она хорошо объясняет, почему вокруг моделей мира сейчас столько инвесторского и исследовательского интереса.

Но проверять всё это нужно осторожно. VBench и PAI-Bench оценивают согласованность сгенерированного видео, а не пригодность системы для реальной робототехники или научного моделирования. Стабильный фон, гладкое движение и правдоподобная механика полезны, но они не доказывают, что модель понимает причинные связи в строгом смысле.

Сравнение с Sora, Veo, Kling и Runway тоже устроено выгодно для разработчиков 2 Max. Эти системы исключены из таблицы как двунаправленные видеомодели, потому что они не рассчитаны на интерактивное предсказание будущих состояний. Аргумент логичный, но поле сравнения получается меньше: речь идет о категории, которую сама компания и пытается закрепить как отдельную.

Еще один момент: модель доступна в частной бете для партнеров. Значит, независимая проверка пока ограничена. Главные вопросы будут в длинных сценариях, где пользователь делает странные действия, сцена постепенно накапливает ошибки, а физическая правдоподобность начинает конфликтовать с управляемостью.

Релиз всё равно значимый. Генеративное видео постепенно делится на две линии: производство готового визуального контента и интерактивные симуляторы среды. Первая линия обслуживает медиа. Вторая может стать основой для тренажеров, игр, агентов, робототехники и систем планирования.

Гонка за моделями мира стала отдельным направлением. Там конкурирует не столько красота кадров, сколько устойчивость причинности, горизонт симуляции, управляемость и цена генерации в реальном времени.

/ Не запрещена в РФ

Нейрократия
582 подписчика
235 постов
Про технологическое будущее без шума. Автор — @vlad_arbatov. https://arbatov.dev

Свежие посты

Опубликовано

OpenAI захватили гоблины

OpenAI захватили гоблиныЯ не шучу, абсолютно серьезно. Ладно, не OpenAI, а модели ChatGPT.Вчера OpenAI опубликовала странный разбор: почему...
Опубликовано

Зачем ИИ учат симулировать мир

Зачем ИИ учат симулировать мирOdyssey представила Odyssey-2 Max, свою крупнейшую модель мира. Формально это родственник видеогенераторов, но...
Опубликовано

Общество будущего от OpenAI: что с ним не так

OpenAI предлагает политику ИИ, но сохраняет выгоду компаний, усиливает концентрацию и создаёт барьеры, не решая риски безопасности.
Опубликовано

Внутренности Клода

Подробный разбор архитектуры Claude Code: входные точки, поток данных, модули, инструменты и интеграция, основанный на анализе 1 884 файлов TypeScript.
Опубликовано

Как меняется устройство мысли

Умственное устройство меняется, когда внешнее ИИ‑рассуждение становится инфраструктурой, заменяя часть мышления и вызывая когнитивную капитуляцию.
Опубликовано

Google ускоряет LLM в 8 раз

TurboQuant — метод Google, ускоряющий LLM‑ы в 8 раз за счёт экстремального сжатия KV‑cache и векторного поиска без потери качества.
Опубликовано

Архив, эпизоды и граф: память агента изнутри

Память AI‑агента «Волна» состоит из постоянных блоков, архивной, эпизодического лога и графа связей, обеспечивая быстрый доступ к фактам и структурам.