摘要:传统AI视频生成领域,研究人员通常需要训练三个独立的模型来处理文本生成图片、文本生成视频和图片生成视频这三种任务。这不仅浪费大量计算资源和训练时间,而且三个模型之间无法相互学习和促进。
传统AI视频生成领域,研究人员通常需要训练三个独立的模型来处理文本生成图片、文本生成视频和图片生成视频这三种任务。这不仅浪费大量计算资源和训练时间,而且三个模型之间无法相互学习和促进。
Waver的创新之处在于设计了一种“万能钥匙”式的统一架构。研究团队巧妙地设计了三部分输入机制,将不同类型的信息分层处理
简单来说,Waver是一个能够将文字或图片转化为高质量视频的AI模型。但与众多“偏科生”不同,Waver是一个不折不扣的“全能型选手”。它在一个统一的框架内,同时支持文生视频(T2V)、图生视频(I2V),甚至文生图(T2I)。这意味着创作者无需在多个工具间来回切换,即可在一个平台内完成从灵感到画面的全部流程。
Waver可以直接生成5到10秒、原生720p分辨率的视频,并能进一步提升至1080p高清画质。更重要的是,在第三方AI模型评估平台Artificial Analysis的排行榜上,Waver在文生视频和图生视频两个赛道上都冲进了前三名,其实力可见一斑。
想象一下,你不用纠结是做图片还是视频,Waver一个模型全包了。它基于Rectified Flow Transformer架构,核心是Task-Unified DiT(任务统一DiT),通过一个灵活的输入机制,就能切换T2I、T2V和I2V任务。只需调整输入张量的通道维度,就能混着训、混着用,省时省力。
论文里特别强调了Hybrid Stream DiT设计:前M层用Dual Stream(双流)来对齐文本和视频模态,让AI更好地“懂”你的提示;后N层切换到Single Stream(单流),共享参数,提高效率。结果呢?训练收敛速度飞起(见论文Fig.5,损失曲线直线下滑)。再加个Hybrid Position Embedding(混合位置编码),结合3D RoPE和可学习位置嵌入,时空信息抓得稳稳的,避免视频变形或时序错乱。
但光生成720p不够,Waver还有Cascade Refiner(级联精炼器)当“后手”。第一阶段吐出低分辨率视频,第二阶段用窗口注意力(Window Attention)+流匹配(Flow Matching)直接升级到1080p。论文说,这比单阶段生成1080p快了40%!而且,它还能修bug:比如输入480p视频,输出时不光清晰,还能顺便编辑内容。
文本编码器也升级了:flan-t5-xxl + Qwen2.5-32B-Instruct的双编码器组合,让提示跟随更准。VAE用的是Wan2.1的,压缩高效。
Waver不光在架构,还在数据管道。论文详解了一个全链路数据 curation:从预处理,到用MLLM训练的质量模型(手动标注过滤高质样本),再到caption模型生成描述。总数据超2亿视频片段!他们还搞了语义平衡(Semantic Balancing)和分层过滤(Hierarchical Data Filtering),确保数据多样性,避免偏科。
训练分多阶段:先对齐表示(Representation Alignment),再优化运动(Motion Optimization,用额外损失函数强化复杂动作),美学(Aesthetics Optimization),最后平衡模型(Model Balancing)。推理时,还有提示重写(Prompt Rewriting)技巧,让生成更生动。基础设施上,论文分享了噪声调度、超参调优,超级实用——开源党看完能直接复现。
Waver 1.0 是一款一体化视频生成模型,在文本转视频(T2V)、图像转视频(I2V)和文本转图像(T2I)生成方面表现卓越。它具备灵活的分辨率和宽高比,支持任意视频长度,并且易于扩展,能够实现对视频生成的有效控制。
Waver 1.0 作为用于统一图像与视频生成的下一代通用基础模型系列,依托整流Transformer搭建而成,致力于达成工业级性能。
为全面评估模型的能力,深入探索其运动生成能力的上限,字节团队精心提出了 Waver - bench 1.0。此评估集包含 304 个样本,广泛涵盖了运动、日常活动、风景、动物、机械、超现实场景、动画等诸多场景,为模型评估提供了丰富而全面的样本基础。
复杂且幅度较大的运动一直是文本转视频生成领域的重大挑战。为了系统地评估和比较各种文本转视频模型在运动生成能力方面的上限,字节团队构建了一个全面的基准数据集——Hermes Motion Testset。该评估集包含 96 个动作,涉及 32 种不同类型的体育活动,如网球、篮球、体操、划船、拳击、马术等,为模型的运动生成能力评估提供了专业且细致的标准。
在 Waver - Bench 1.0 和 Hermes Motion Testset 上,将 Waver 1.0 与领先的开源和闭源模型在运动质量、视觉质量和快速跟随等方面进行了细致比较。通过人工评估,Waver 1.0 的表现显著优于闭源和开源模型,进一步证明了其在该领域的领先地位。
为提升效率,借助 Wan - VAE 来获取压缩视频的潜在特征。选用 flan - t5 - xxl 与 Qwen2.5 - 32B - Instruct 进行文本特征的提取。
DiT 模型依托整流 Transformer 搭建而成。对于视频和文本模态,采用双流与单流相结合的方法予以融合,其中两种类型的块数分别设定为 M 和 N。
通过对输入通道加以修改,于单个模型之中达成了 T2V 和 I2V 的联合训练。具体而言,视频标记通道设定为 16,图像(首帧)标记通道同样为 16,任务掩码通道则为 4。
在 T2V 和 I2V 的联合训练进程中,以 20% 的概率融入图像潜在特征。
Waver - Refiner 采用 DiT 架构,并运用流匹配方法开展训练。
首先,把低分辨率视频(480p 或 720p)进行上采样处理,使其分辨率提升至 1080p,随后为该视频添加噪声。Refiner 以带有噪声的低分辨率视频作为输入,进而输出高质量的 1080p 视频。
Refiner 采用窗口注意力机制,将推理步骤的数量削减了一半,从而显著提高了推理速度。具体来说,相较于直接生成 1080p 视频,从 720p 上采样至 1080p 的推理时间大约缩短了 40%,而从 480p 上采样至 1080p 的推理时间大约缩短了 60%。
低分辨率视频训练在学习运动规律方面起着举足轻重的作用。有鉴于此,字节团队投入了海量的计算资源,率先在 192p 分辨率的视频上开展训练工作,而后循序渐进地将视频分辨率提升至 480p 和 720p。
该团队遵循 SD3 中的光流匹配训练设置,在对 480p 和 720p 视频进行训练时,逐步增大 sigma shift 的数值。在 720p 视频的训练阶段,将 sigma shift 设置为 3.0;而在推断阶段,则将其设置为 7.0。
针对 T2I 任务,采用对数范数 (0.5, 1) 概率密度函数来进行时间步长的采样。对于 T2V 和 I2V 任务,选取众数 (mode) (1.29) 进行采样。
通过实践经验可知,在视频生成任务中运用众数采样策略能够带来更为出色的运动效果。
为有效区分不同类型的训练数据,我们采用提示标记方法。依据视频风格与视频质量,为训练数据赋予不同标签。
在训练阶段,于字幕前端添加用以描述视频风格的提示。针对视频质量,在训练字幕的末尾附加描述视频质量的提示。
在推理环节,将描述不良质量(诸如低清晰度、慢动作等情况)的提示整合至负面提示之中。对于特定的风格需求(例如动漫风格),运用提示重写技术,把相应的描述性提示置于整体提示的前端。
以下视频展示了同一提示“夜晚,一个男人和一个女人手牵手走在熙熙攘攘的城市街道上”的 6 种不同风格:写实风格、吉卜力风格的 2D 动画、3D 动画、体素风格的 3D 动画、迪士尼动画电影风格、卡通图画书风格的 2D 动画。
将APG扩展至视频生成,以增强真实感并减少伪影。APG将CFG中的更新项分解为并行和正交分量,并降低并行分量的权重,从而实现高质量生成且不会出现过饱和现象。从[C, H, W]维度对潜在向量进行归一化比从[C, T, H, W]维度对潜在向量进行归一化可以减少伪影。对于超参数,团队发现归一化阈值27和指导尺度8在真实感和伪影之间取得了良好的平衡。
来源:人工智能研究所