📄 论文信息
- arXiv: 2603.23497
- 分类: 世界模型
- 标签: world_model, vision, scientific
📑 目录
本文档包含完整的论文研读报告,包括深度学术速读和技术实现分析两部分。
WildWorld 双模式研读报告
论文标题: WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG
作者: Zhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang
机构: Alaya Studio (Shanda AI Research Tokyo), 北京理工大学,上海创新人工智能研究院,深圳北理莫斯科大学,清华大学
发布时间: 2026 年 3 月 24 日
arXiv: 2603.23497 [cs.CV]
Part A: 深度专业学术速读报告
结构化摘要 (Structured Abstract)
| 维度 | 内容 |
|---|---|
| 背景/目标 | 动态系统理论和强化学习将世界演化视为由动作驱动的潜在状态动态过程,视觉观察仅提供状态的部分信息。现有视频世界模型数据集缺乏多样化且具语义意义的动作空间,动作直接与视觉观察绑定而非通过底层状态中介,导致模型难以学习结构化世界动态并维持长时一致性。本研究旨在构建一个大规模、带显式状态标注的动作条件世界建模数据集。 |
| 方法 | 从 photorealistic AAA 级动作角色扮演游戏《Monster Hunter: Wilds》自动收集数据,开发专用数据采集平台记录每帧真实标注(动作、骨骼、世界状态、相机姿态、深度图等),并通过自动化游戏管道扩展至 1.08 亿帧。设计 WildBench 基准,引入 Action Following 和 State Alignment 两项评估指标。 |
| 结果 | WildWorld 包含 1.08 亿帧、450+ 种动作、每帧 119 个标注列。实验表明:SkelCtrl 在 Action Following 和 State Alignment 上较基线提升近 100%;StateCtrl-AR 仅用第一帧状态自回归预测后续状态,性能接近 StateCtrl 但 Action Following 下降;VBench 指标趋于饱和,需更细粒度评估。 |
| 结论 | 显式状态标注对于动作条件视频生成和世界建模至关重要。现有模型在建模语义丰富动作和保持长时状态一致性方面仍面临显著挑战,需要状态感知的视频生成方法。 |
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
理解和预测世界如何从观察中演化是人工智能的核心目标之一。动态系统理论 (dynamical systems theory) 和强化学习 (reinforcement learning) 通常将世界建模为潜在状态动态过程,环境通过动作驱动的状态转换进行演化。从这一视角看,视觉观察仅仅是真实系统状态的部分且有噪声的投影。因此,学习世界的预测模型需要推断潜在状态并建模其动作条件的状态转换。
近年来,视频生成和世界模型取得显著进展。许多方法试图通过训练生成模型从大规模视频数据集中学习环境动态,该模型根据过去观察和动作预测未来帧。然而,尽管这些模型能力不断增强,现有数据集仍不足以有效学习结构化动作条件动态。大多数数据集仅提供简单动作标注(如基本移动或相机旋转),且动作效果通常直接在视觉观察中可见。
核心研究问题:如何构建一个能够支持学习结构化动作条件动态的数据集,使模型能够区分状态转换与观察变化,从而在长时间范围内生成稳定且可解释的世界动态?
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
交互式世界模型:近期视频生成模型的进展推动了交互式世界生成模型的发展。在视频生成领域,文本到视频 (text-to-video) 和图像到视频 (image-to-video) 生成在生成质量和时间一致性方面取得显著进步。对于交互式视频生成,一些工作通过在生成过程中切换提示词实现交互,另一些工作则在图像到视频生成基础上引入键盘控制和相机姿态等动作信号。然而,这些方法受限于有限的动作空间,并将动作控制与像素级视频变化紧密耦合。
潜在状态表示:一些近期工作尝试在视频生成模型中引入潜在状态表示以更好地捕捉环境动态。然而,这些方法通常将世界状态表示为从视觉观察学习到的隐式潜在变量。
视频生成数据集:近期视频生成的进步由多个大规模数据集推动,如 OpenVid-1M、MiraData、Open-Sora 和 SpatialVID。更近期的工作开始探索用于世界建模或交互式视频生成的数据集,包括 OmniWorld、Sekai、GF-Minecraft、PLAICraft 和 GameGen-X。然而,这些数据集仍主要依赖视觉观察,缺乏显式、具语义意义的状态表示。
研究缺口:现有数据集缺乏显式的、具有语义意义的状态标注,无法支持模型学习结构化状态动态,也无法直接评估状态对齐和动作跟随能力。WildWorld 填补了这一空白,提供显式状态标注(角色骨骼、世界状态、相机姿态、深度等)。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标:
- 构建 WildWorld——一个大规模视频数据集,包含丰富的动作空间和多样化的帧级真实标注
- 设计 WildBench——一个用于评估交互式世界模型的基准,包含 Action Following 和 State Alignment 两项核心指标
- 通过广泛实验分析现有模型在 WildBench 上的表现,为交互式世界模型的未来发展提供洞察
核心命题:
- 显式状态标注能够帮助模型更好地区分状态转换与观察变化
- 具有丰富语义的动作空间对于学习可解释的世界动态至关重要
- 状态感知的视频生成方法能够在长时一致性方面取得更好表现
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
本研究采用数据构建与基准评估的研究范式,包含四个主要部分:
- 数据采集平台:设计专用平台记录动作、状态和观察三类数据
- 自动化游戏管道:实现长时间无人值守的数据收集
- 数据处理与标注管道:对原始数据进行过滤、对齐和分层标注
- 基准评估体系:设计 WildBench 基准及评估指标
选择《Monster Hunter: Wilds》作为数据源的原因:
- Photorealistic AAA 级游戏,视觉质量高
- 丰富的动作空间(450+ 种动作)
- 复杂的状态系统(生命值、耐力、技能冷却等)
- 开放世界地图,多样化场景
2.2. 数据来源与样本 (Data Source & Sample)
数据来源:
- 游戏:《Monster Hunter: Wilds》(怪物猎人:荒野)
- 采集方式:自动化游戏管道 + 专用录制系统
- 规模:1.08 亿帧,119 个标注列/帧
样本筛选标准:
- 持续时间过滤:丢弃短于 81 帧的样本
- 时间连续性过滤:相邻帧时间间隔不超过目标帧间隔的 1.5 倍(约 50ms@30FPS)
- 亮度过滤:移除连续 15 帧以上极高或极低平均亮度的样本
- 相机遮挡过滤:检测弹簧臂行为,丢弃相机 - 角色距离异常小的样本
- 角色遮挡过滤:首帧角色投影重叠面积不超过 30%
样本特征:
- 29 种独特怪物物种
- 4 种玩家角色
- 4 种武器类型(大剑、太刀、弓、双刀)
- 5 个不同场景(沙漠、雪山、森林、沼泽、荒地)
- 多样天气(晴天、雨天)和时间(白天、夜晚)条件
- 66% 战斗场景,34% 移动探索场景
2.3. 操作化与测量 (Operationalization & Measurement)
动作表示:
- 角色状态编码为 (武器类型,bank ID, motion ID) 三元组
- 共 5,960 个独特角色动作三元组(24 个 banks,455 个 motion IDs)
- 怪物表现 2,132 个独特动作对(13 个 banks,527 个 motion IDs)
状态标注:
- 离散状态:怪物类型、武器类别等,通过可训练嵌入映射
- 连续状态:坐标、生命值等,使用 MLP 编码
- 实体级表示:每个实体(如怪物)编码自身状态
- 全局状态:录制时间等全局信息
评估指标:
Video Quality(视频质量):
- Motion Smoothness (MS):运动平滑度
- Dynamic Degree (DD):动态程度
- Aesthetic Quality (AQ):美学质量
- Image Quality (IQ):图像质量
Camera Control(相机控制):
- Absolute Trajectory Error (ATE):绝对轨迹误差
- Relative Pose Error (RPE):相对姿态误差
Action Following(动作跟随):
- 基于动作序列级别评估
- 使用 Gemini 3 Flash 判断生成视频与真实视频是否表达相同动作
- 按动作类别(移动、快速位移、攻击)设计详细提示词
State Alignment(状态对齐):
- 使用角色和怪物姿态作为状态代理
- 提取 2D 骨骼关键点轨迹
- 计算预测与真实轨迹的坐标准确率(4/8/16/32 像素阈值)
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
数据集统计:
- 总帧数:1.08 亿帧
- 样本时长分布:大多数片段跨越 4,000 至 28,000 帧,小部分超过 40,000 帧(30 分钟以上)
- 空间动态:相机 - 角色距离中位数 15.69 单位,角色 - 怪物距离中位数 12.63 单位
- 动作分布:前 150 个动作 ID 占 58.49%,呈现长尾分布
基准指标验证:
- Action Following 指标与人类判断一致性达 85%
- State Alignment 指标对真实视频进行关键点追踪,坐标准确率达 43.23%
模型对比实验(表 1):
| 方法 | MS | DD | AQ | IQ | ATE(↓) | RPE(↓) | Action Following | State Alignment |
|---|---|---|---|---|---|---|---|---|
| Baseline | 96.38 | 99.00 | 50.81 | 65.62 | 4.63 | 0.18 | 53.77 | 11.29 |
| CamCtrl | 97.85 | 97.00 | 48.29 | 62.88 | 2.02 | 0.13 | 83.46 | 15.18 |
| SkelCtrl | 97.85 | 95.00 | 47.92 | 62.43 | 2.55 | 0.10 | 92.81 | 22.03 |
| StateCtrl | 97.45 | 99.00 | 50.86 | 67.78 | 0.94 | 0.07 | 85.66 | 16.06 |
| StateCtrl-AR | 97.43 | 99.00 | 50.90 | 67.76 | 1.01 | 0.08 | 74.66 | 16.13 |
关键发现:
- 所有方法在交互相关指标上均优于基线
- SkelCtrl 在 Action Following 和 State Alignment 上提升近 100%,但视频质量(AQ、IQ)下降
- StateCtrl 在视频质量上表现最佳(AQ=50.86, IQ=67.78)
- StateCtrl-AR 仅用第一帧真实状态,后续状态自回归预测,性能接近 StateCtrl,但 Action Following 下降(74.66 vs 85.66)
- VBench 指标趋于饱和(所有方法 MS>95%, DD>95%),无法区分实际运动生成能力差异
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
图 1:数据集示例
- 展示 RGB 帧与对齐的深度图、相机姿态、骨骼、动作/状态真实标注
- 提供动作级 caption(细粒度)和样本级 caption(摘要)
- 说明数据集适用于多种实验设置
图 2:数据整理管道
- 数据采集平台:记录多流数据,嵌入时间戳实现帧级同步
- 自动化游戏系统:行为树 AI + 相机绑定
- 数据处理:时间戳对齐、异常帧过滤、样本过滤
- 分层标注:动作级 caption + 样本级 caption
图 3:数据集统计概览
- (a) 数据组成:角色类型、怪物物种、场景类型、战斗/移动比例
- (b) 样本时长分布:大多数样本在 4,000-28,000 帧
- (c) 动作分布:前 150 个动作 ID 频率分布,呈现长尾模式
图 4:定性比较
- 比较 CamCtrl、StateCtrl、SkelCtrl 在不同测试样本上的表现
- CamCtrl 产生与真实一致的相机运动,但未能捕捉怪物动态
- StateCtrl 生成更清晰的前景主体
- SkelCtrl 更好再现飞溅沙石等效果(与较低图像质量一致)
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
视觉信号作为条件输入的权衡: SkelCtrl 使用视觉信号(骨骼视频)作为交互控制输入,在交互相关指标上取得比 StateCtrl 更大的提升。然而,这是以视频质量为代价的——SkelCtrl 的 AQ 和 IQ 分数较低。定性分析显示,SkelCtrl 更好再现了真实视频中的复杂效果(如飞溅沙石),而 StateCtrl 生成更清晰的图像。这一现象表明,直接使用视觉信号可能导致模型过度拟合于精确的运动控制,而牺牲了整体视觉质量。
自回归世界模型的潜力与挑战: StateCtrl-AR 仅使用第一帧的真实状态,后续状态通过自回归预测生成。实验结果显示其性能接近 StateCtrl,但在 Action Following 上出现明显下降(74.66 vs 85.66)。这一退化归因于迭代下一步状态预测中的误差累积,这也是自回归视频生成中观察到的现象。尽管如此,这一范式仍显示出潜力,可能与自回归视频生成结合并进一步推动其发展。
评估指标的饱和问题: 所有方法在 VBench 的 MS 和 DD 指标上均超过 95%,但它们在 Action Following 和 State Alignment 上的表现差异显著。这表明,对于交互式世界模型,需要更细粒度和细微的评估指标来评估高度动态的视频生成,这也符合 WildBench 的设计目标。
4.2. 理论贡献 (Theoretical Contributions)
显式状态表示的重要性:本研究通过实验验证了显式状态标注对于学习结构化世界动态的重要性。与隐式潜在变量不同,显式状态提供了可解释的、语义丰富的中间表示,使模型能够更好地区分状态转换与观察变化。
动作 - 状态 - 观察的三元框架:研究明确了动作(控制输入)、状态(底层演化)和观察(视觉表现)之间的分离,为交互式世界建模提供了清晰的理论框架。
长时一致性的挑战:实验揭示了现有模型在长时状态一致性方面的局限性,特别是自回归方法中的误差累积问题。这为未来研究指明了方向。
4.3. 实践启示 (Practical Implications)
AI 原生游戏开发:WildWorld 为 AI 原生游戏提供了大规模训练数据,支持开发能够理解和预测游戏世界动态的智能体。
世界模型评估标准化:WildBench 提供了标准化的评估基准,使不同研究能够进行公平比较,促进领域发展。
数据收集方法的可迁移性:研究中开发的数据采集平台和自动化游戏管道可迁移至其他游戏或虚拟环境,为构建类似数据集提供技术参考。
开源促进社区发展:项目页面、代码和数据集的开放将促进社区协作,加速世界模型研究进展。
4.4. 局限性与未来研究 (Limitations & Future Research)
局限性:
- 单一游戏来源:数据仅来自《Monster Hunter: Wilds》,可能限制模型的泛化能力
- 自回归误差累积:StateCtrl-AR 在长时预测中出现性能下降
- 规则基 AI 的行为多样性:自动化战斗使用游戏内置的规则基 AI,可能存在行为重复性问题(尽管作者认为组合动作空间足够大)
- 评估基准规模:WildBench 仅包含 200 个手动筛选的样本,可能需要更大规模的测试集
未来研究方向:
- 多游戏/多领域数据集:扩展至更多游戏或虚拟环境,提高模型泛化能力
- 改进自回归方法:探索减少误差累积的技术,如教师强制 (teacher forcing)、记忆机制等
- 更细粒度的评估指标:开发能够更好区分模型能力的评估方法
- 状态预测与视频生成的联合优化:探索状态预测与视频生成的端到端联合训练
- 人类交互数据:收集真实人类玩家的游戏数据,增加行为多样性
5. 结论 (Conclusion)
本研究提出了 WildWorld——一个大规模、带显式状态标注的视频数据集,用于支持动作条件世界建模的研究。数据集从 photorealistic AAA 级动作角色扮演游戏《Monster Hunter: Wilds》自动收集,通过可扩展的数据收集管道扩展至 1.08 亿帧。WildWorld 提供丰富且有意义的动作空间(450+ 种动作),每帧标注包括角色骨骼、世界状态、相机姿态、深度等。
此外,研究引入了 WildBench——一个从 WildWorld 衍生的基准,支持对动作跟随和状态对齐的定量评估。实验结果表明,现有模型在建模语义丰富动作和保持长时状态一致性方面仍面临显著挑战。这些发现凸显了将显式状态信息纳入动作条件视频生成和世界建模的重要性。
6. 核心参考文献 (Core References)
Ha, D. & Schmidhuber, J. (2018). World models. arXiv preprint arXiv:1803.10122.
- 世界模型的奠基性工作,提出使用潜在变量模型学习环境动态
Wan, T. et al. (2025). Wan: Open and advanced large-scale video generative models. arXiv preprint arXiv:2503.20314.
- 开源大规模视频生成模型,本研究基线模型的基础
Huang, Z. et al. (2024). VBench: Comprehensive benchmark suite for video generative models. CVPR.
- 视频生成模型的综合评估基准,本研究视频质量指标的来源
He, H. et al. (2024). CameraCtrl: Enabling camera control for text-to-video generation. arXiv preprint arXiv:2404.02101.
- 相机控制技术,本研究 CamCtrl 方法的基础
Zholus, A. et al. (2025). TAPNext: Tracking any point (tap) as next token prediction. ICCV.
- 关键点追踪技术,用于 State Alignment 评估
Part B: 核心逻辑链与根本价值提炼
核心四要素
| 要素 | 内容 |
|---|---|
| 根本问题 | 现有视频世界模型数据集将动作直接与像素级变化绑定,缺乏通过底层状态中介的动作表示。这导致模型无法区分"动作导致的内部状态变化"(如弹药减少)与"直接可见的观察变化"(如视角移动),从而在长时预测中产生不一致和误差累积。 |
| 切入视角 | 作者的关键洞察是:世界演化应建模为"动作→状态转换→观察变化"的三元过程,而非"动作→观察变化"的二元映射。通过从游戏引擎直接获取显式状态标注(骨骼、生命值、位置等),可以训练模型学习状态感知的世界动态,而非仅仅拟合像素级相关性。 |
| 关键方法 | 核心机制是"游戏引擎数据采集平台":利用现代游戏引擎中动作、状态、观察的天然分离,在引擎层面同步记录三类数据。动作来自玩家输入,状态来自游戏逻辑更新,观察来自渲染管线。通过嵌入时间戳实现多源同步,并通过自动化游戏管道实现大规模收集。 |
| 核心发现 | 实验揭示了三个关键发现:(1) 使用视觉信号(骨骼)作为条件输入在交互指标上提升最大(SkelCtrl 的 Action Following 达 92.81%),但牺牲视频质量;(2) 显式状态嵌入(StateCtrl)在视频质量上最优,但交互指标略低;(3) 自回归状态预测(StateCtrl-AR)可行但存在误差累积,Action Following 下降至 74.66%。VBench 指标饱和,需要 WildBench 这类细粒度评估。 |
方法公式化
状态感知世界模型 = (动作空间 A × 显式状态 S × 观察 O) × 时间一致性约束
更具体地:
WildWorld 数据集 = 游戏引擎 × (动作记录 + 状态记录 + 观察记录) × 时间戳同步
= 1.08 亿帧 × 450+ 动作 × 119 标注列/帧
StateCtrl 模型 = 状态编码器 (离散嵌入 + 连续 MLP) × Transformer 实体关系建模 × DiT 条件注入
+ 状态解码器 (重构损失) + 状态预测器 (预测损失)
WildBench 评估 = Action Following (VLM 判断动作一致性) + State Alignment (关键点追踪坐标准确率)
+ Camera Control (ATE/RPE) + Video Quality (VBench)最终双重总结
一句话总结(核心价值):WildWorld 通过从 AAA 游戏引擎直接采集显式状态标注,构建了首个支持"动作→状态→观察"三元建模的大规模世界模型数据集,并通过 WildBench 基准揭示了现有模型在状态一致性和动作跟随方面的关键挑战,为状态感知视频生成指明了方向。
一句话总结(大白话版):就像教 AI 玩游戏不能只让它看画面,还要告诉它"血量剩多少""技能冷却没""怪物在干嘛"这些内在状态——WildWorld 就是把游戏里的这些"看不见的信息"都记录下来,让 AI 学会真正理解游戏世界的运行规律,而不是只会模仿表面动作。
报告生成时间:2026 年 3 月 26 日论文 arXiv:https://arxiv.org/abs/2603.23497项目页面:https://shandaai.github.io/wildworld-project/代码仓库:https://github.com/ShandaAI/WildWorld