谢赛宁团队推出多人视频世界模型Solaris，基于昆仑万维Matrix-Game2.0构建

1,313 0

Solaris：谢赛宁团队推出基于Matrix-Game2.0的多人视频世界模型

项目背景与核心突破
近日，由人工智能领域专家谢赛宁领衔的研究团队正式发布了全新多人视频世界模型**Solaris**。该模型基于昆仑万维**Matrix-Game2.0**框架构建，标志着多模态AI在复杂动态场景理解与生成领域取得重要进展。Solaris的核心突破在于实现了**多人交互场景的时序一致性建模**，能够对包含多个动态主体的视频内容进行高保真重建与生成，为虚拟现实、游戏开发、社交互动等场景提供了新的技术解决方案。

技术架构与创新特点
Solaris模型深度融合了Matrix-Game2.0的分布式训练框架与动态场景表示学习技术。其创新点主要体现在三个方面：

**第一，多层次时空注意力机制**。模型通过分层建模局部肢体动作与全局场景运动的关联性，解决了传统视频生成中多人运动逻辑矛盾的问题。

**第二，可扩展的角色行为建模**。每个动态主体被赋予独立的行为编码器，支持个性化动作库的在线学习与迁移，显著提升了生成内容的多样性。

**第三，物理约束的场景融合**。模型在生成过程中引入了隐式物理规则校验，确保光影变化、物体遮挡等细节符合真实世界规律。

应用前景与行业影响
Solaris的发布对多个产业赛道具有启示意义。在影视特效领域，该技术可将传统动捕方案的制作周期缩短60%以上；在虚拟社交平台中，能够实现用户自定义虚拟人的自然互动；在教育训练场景下，可快速生成包含复杂操作流程的教学视频。特别值得注意的是，其底层框架Matrix-Game2.0展现出的分布式训练能力，为百亿参数级别的多模态模型训练提供了新的工程范式。

挑战与未来方向
当前模型仍面临**长时序动作漂移**和**极端光照场景适应**等技术挑战。研究团队透露，下一步将重点优化动作传递的稳定性算法，并探索与神经辐射场（NeRF）技术的结合路径。随着数字孪生、元宇宙等概念的持续演进，Solaris所代表的可交互视频生成技术，正在重新定义数字内容的生产边界。

—

**技术参数摘要**
– 基础架构：Matrix-Game2.0分布式训练框架
– 最大支持角色数：8个独立动态主体
– 生成分辨率：最高支持1024×576@30fps
– 训练数据量：超过2000小时的标注多人交互视频
– 关键创新：时序一致性损失函数、分层运动解耦模块