摘要:在科技日新月异的今天,阿里巴巴再次引领技术潮流,正式推出了其通义万相平台的全新多模态视频生成模型——Wan2.2-S2V。这一创新模型仅需用户提供一张静态图片和一段音频,便能自动生成面部表情生动、口型精准匹配、肢体动作流畅的电影级数字人视频,为数字人直播、影视
在科技日新月异的今天,阿里巴巴再次引领技术潮流,正式推出了其通义万相平台的全新多模态视频生成模型——Wan2.2-S2V。这一创新模型仅需用户提供一张静态图片和一段音频,便能自动生成面部表情生动、口型精准匹配、肢体动作流畅的电影级数字人视频,为数字人直播、影视后期制作及AI教育等领域带来了革命性的变化。
据悉,Wan2.2-S2V模型能够生成分钟级别的视频内容,极大提升了视频创作的效率。用户只需简单操作,便能见证静态图片中的人物仿佛被赋予了生命,随着音频的节奏动起来,无论是唱歌、说话还是表演,都显得栩栩如生。这一技术突破无疑为影视行业的内容创作者提供了强有力的支持,也为数字人直播等新兴领域打开了全新的想象空间。
早在今年7月,阿里通义万相已经开源了包括文生视频、图生视频在内的多款视频生成模型,如Wan2.2-T2V-A14B、Wan2.2-I2V-A14B等,这些模型在业界首次采用了MoE架构,展现了强大的视频生成能力。而此次推出的Wan2.2-S2V则更加注重音频与图像的同步,致力于实现画面与音频的完美契合。
在实际体验中,Wan2.2-S2V展现出了令人惊叹的效果。无论是真人、卡通、动物还是数字人形象,只需上传一张图片和一段音频,模型便能自动生成一段与音频完美同步的视频。视频中的人物面部表情丰富自然,口型与音频精准对位,甚至手部或身体其他部分的动作也十分流畅。这一技术不仅适用于真人角色的视频生成,还能为动画角色增添生动的表现力。
Wan2.2-S2V还支持多种画幅和分辨率的视频生成,无论是竖屏短视频还是横屏影视剧,都能轻松应对。用户还可以通过输入文本Prompt来控制视频画面,让视频主体的运动和背景的变化更加丰富多样。这一功能为视频创作者提供了更多的创作自由和想象空间。
在测试过程中,我们尝试上传了一张动画人物“吉伊”的图片,并输入指令让画面中的角色唱歌。结果令人惊喜,“吉伊”不仅动了起来,还配上了背景音乐,虽然嘴巴的线条识别尚有一些误差,但整体效果已经相当出色。随后,我们又尝试了让小狗张嘴唱歌、爱因斯坦张口说话等场景,每一次尝试都带来了全新的视觉体验。
随着数字人直播、影视制作等行业对高效视频创作工具需求的日益增长,阿里通义万相平台不断推出创新技术,为这些领域提供了强有力的支持。Wan2.2-S2V模型的推出,无疑将进一步推动视频生成技术的快速发展,为创作者们带来更多惊喜和可能。
来源:ITBear科技资讯