阿里通义万相新突破：静态图+音频，轻松生成电影级数字人视频

摘要：在科技日新月异的今天，阿里巴巴再次引领技术潮流，正式推出了其通义万相平台的全新多模态视频生成模型——Wan2.2-S2V。这一创新模型仅需用户提供一张静态图片和一段音频，便能自动生成面部表情生动、口型精准匹配、肢体动作流畅的电影级数字人视频，为数字人直播、影视

在科技日新月异的今天，阿里巴巴再次引领技术潮流，正式推出了其通义万相平台的全新多模态视频生成模型——Wan2.2-S2V。这一创新模型仅需用户提供一张静态图片和一段音频，便能自动生成面部表情生动、口型精准匹配、肢体动作流畅的电影级数字人视频，为数字人直播、影视后期制作及AI教育等领域带来了革命性的变化。

据悉，Wan2.2-S2V模型能够生成分钟级别的视频内容，极大提升了视频创作的效率。用户只需简单操作，便能见证静态图片中的人物仿佛被赋予了生命，随着音频的节奏动起来，无论是唱歌、说话还是表演，都显得栩栩如生。这一技术突破无疑为影视行业的内容创作者提供了强有力的支持，也为数字人直播等新兴领域打开了全新的想象空间。

早在今年7月，阿里通义万相已经开源了包括文生视频、图生视频在内的多款视频生成模型，如Wan2.2-T2V-A14B、Wan2.2-I2V-A14B等，这些模型在业界首次采用了MoE架构，展现了强大的视频生成能力。而此次推出的Wan2.2-S2V则更加注重音频与图像的同步，致力于实现画面与音频的完美契合。

在实际体验中，Wan2.2-S2V展现出了令人惊叹的效果。无论是真人、卡通、动物还是数字人形象，只需上传一张图片和一段音频，模型便能自动生成一段与音频完美同步的视频。视频中的人物面部表情丰富自然，口型与音频精准对位，甚至手部或身体其他部分的动作也十分流畅。这一技术不仅适用于真人角色的视频生成，还能为动画角色增添生动的表现力。

Wan2.2-S2V还支持多种画幅和分辨率的视频生成，无论是竖屏短视频还是横屏影视剧，都能轻松应对。用户还可以通过输入文本Prompt来控制视频画面，让视频主体的运动和背景的变化更加丰富多样。这一功能为视频创作者提供了更多的创作自由和想象空间。