港科大团队让视频生成从“制作短片”升级为“拍摄电影”

摘要：这项由香港科技大学、北京大学、香港大学等多所知名院校联合完成的研究发表于2025年神经信息处理系统会议(NeurIPS 2025)的视频生成与评估工作坊，论文编号为arXiv:2412.02259v3。对于想要深入了解技术细节的读者，可以通过这个编号在学术数据

这项由香港科技大学、北京大学、香港大学等多所知名院校联合完成的研究发表于2025年神经信息处理系统会议(NeurIPS 2025)的视频生成与评估工作坊，论文编号为arXiv:2412.02259v3。对于想要深入了解技术细节的读者，可以通过这个编号在学术数据库中找到完整论文。

现在的AI视频生成技术就像是一个只会拍摄单个镜头的摄影师，虽然能创造出令人印象深刻的短视频片段，但当你要求它制作一部完整的多镜头故事时，就会遇到各种问题。就好比你想让这个摄影师拍摄一个人从年轻到老年的故事，结果每个镜头里的主角都变成了不同的人，背景风格也完全不统一，故事情节更是支离破碎。

这正是当前视频生成技术面临的核心挑战。现有的方法在生成单个镜头时表现出色，但要制作像电影一样的多镜头视频时，就会出现三个严重问题：故事情节缺乏逻辑性、角色外貌前后不一致、镜头之间转换生硬。这些问题让自动化的电影级视频制作变得几乎不可能。

港科大的研究团队提出了一个叫做VideoGen-of-Thought(VGoT)的创新框架，这个名字的含义是"有思考过程的视频生成"。这套系统的神奇之处在于，它能够像一位经验丰富的电影导演一样，从一个简单的句子开始，系统性地规划整个故事，然后自动生成具有连贯情节和视觉一致性的多镜头视频。

VGoT的工作原理可以用制作一部电影的完整流程来理解。当你给系统一句话描述，比如"讲述玛丽从出生到死亡的一生"，系统就像一个全能的电影制作团队，会自动完成从剧本创作到最终成片的所有工作。

**一、动态故事建模：从概念到剧本的智能转换**

VGoT的第一步工作就像是一位资深编剧接到制片人的一句话创意后，需要将其扩展成完整的电影剧本。这个过程被称为"动态故事建模"，它能够自动将用户的简单描述转换成详细的分镜头脚本。

整个过程分为两个阶段。首先，系统会将用户的一句话描述扩展成多个简短的场景描述。比如，从"玛丽的一生"这样的概念，系统能够生成"玛丽作为婴儿在医院出生"、"年轻的玛丽在学校学习"、"中年的玛丽结婚生子"等30个不同的场景描述。

第二阶段更加精细，系统会为每个场景生成详细的拍摄指导。这些指导涵盖五个关键维度，就像专业电影制作中的详细分镜头脚本一样。角色维度描述每个镜头中人物的外貌、表情和状态变化，比如"年轻的玛丽，穿着校服，眼中充满求知欲"。背景维度确保场景的连续性和合理性，从医院到学校再到家庭，每个环境都与故事发展相匹配。关系维度描述人物之间的互动和情感变化，确保故事的情感逻辑。镜头维度规划摄像机的角度和运动，比如特写、全景、移动镜头等。光影维度则控制每个场景的光线效果，营造适当的氛围。

系统还具备自我验证机制，就像一个经验丰富的导演会反复检查剧本是否符合电影制作规范一样。当系统生成一个场景描述后，会自动检查这个描述是否与前面的场景在逻辑上连贯，是否包含了所有必要的拍摄要素。如果发现问题，系统会自动重新生成，直到达到专业电影制作的标准。

这种智能化的剧本创作过程解决了传统方法需要大量人工干预的问题。以前，制作一个多镜头视频需要用户详细描述每个场景的各种细节，工作量巨大且容易出错。现在，用户只需要提供一个基本想法，系统就能自动完成从创意到详细拍摄计划的全部工作。

**二、身份感知的跨镜头传播：让角色始终如一**

在多镜头视频中保持角色的一致性，就像是要确保一个演员在电影的不同场景中始终是同一个人，即使他们的年龄、表情、服装会发生变化，但核心的面部特征和身份特征必须保持一致。这是VGoT解决的第二个关键问题。

系统采用了一种叫做"身份感知的跨镜头传播"技术。这个技术的核心思想是创建"身份保护肖像"标记，简称IPP标记。这些标记就像是每个角色的身份证照片，包含了角色最核心的身份特征信息。

整个过程可以比作专业化妆师的工作流程。首先，系统会分析剧本中的所有角色，识别出诸如"年轻的玛丽"、"中年的玛丽"、"老年的玛丽"这样的角色变体。然后，系统会为每个角色变体生成对应的IPP标记，这些标记捕捉了角色在不同阶段的关键特征，同时保持核心身份的一致性。

在生成每个镜头的关键帧时，系统会将这些IPP标记融入到图像生成过程中。这就像是给AI画师提供了详细的人物设定资料，确保他在绘制不同场景时，同一个角色总是具有一致的核心特征。系统通过一种叫做交叉注意力机制的技术来实现这种融合，这个机制能够在生成图像时同时考虑文本描述和身份特征信息。

这种方法的巧妙之处在于，它既保持了角色身份的一致性，又允许角色随着故事发展而发生合理的变化。比如，玛丽从年轻到年老的过程中，她的面部轮廓、眼睛形状等核心特征会保持一致，但皱纹、发色、表情等可以根据故事需要发生变化。

相比传统方法，这种技术大大减少了视频中"换脸"现象的发生。在以前的多镜头视频生成中，经常会出现同一个角色在不同镜头中看起来像完全不同的人，严重影响观看体验。VGoT的身份感知技术有效解决了这个问题，让生成的多镜头视频具有了专业电影的角色一致性。

**三、相邻潜在转换机制：实现无缝镜头切换**

电影中最考验技术水平的地方之一就是镜头之间的转换。好的电影能让观众在镜头切换时感到自然流畅，而糟糕的转换会让观众感到突兀和不适。VGoT的第三个核心技术就是解决多镜头视频中的转换问题。

这个技术被称为"相邻潜在转换机制"，工作原理类似于专业视频编辑中的转场技术。在传统的视频编辑中，剪辑师会在镜头交接处使用各种转场效果，如淡入淡出、交叉溶解等，让镜头切换显得自然。VGoT在生成视频时就预先考虑了这种转换需求。

系统的处理方式可以用接力跑来类比。在接力跑中，前一棒运动员和后一棒运动员需要在交接区域内完成接力棒的传递，这个过程需要两人的速度和节奏相匹配。同样，VGoT在处理镜头转换时，会让相邻镜头在交接区域共享一些视觉特征，确保转换的流畅性。

具体来说，系统会在生成每个镜头时考虑前一个镜头的结束状态。比如，如果前一个镜头是玛丽坐在桌边看书，下一个镜头是她站起来走向窗户，系统会确保这两个动作在视觉上能够自然衔接。这不仅包括动作的连贯性，还包括光线、色调、摄像机角度的平滑过渡。

系统采用了一种边界感知的重置策略。当从一个镜头转换到下一个镜头时，系统会重新初始化部分生成参数，但同时保留一些来自前一镜头的信息。这就像是在换档时，虽然要切换到新的档位，但车速和方向的改变是渐进的，而不是突然的。

这种转换机制还具有自适应性。对于剧情变化较大的镜头切换，比如从室内转到户外，或者从白天转到夜晚，系统会适当增加重置的程度，允许更大的视觉变化。而对于连续性较强的镜头，系统会保持更多的共同特征，确保视觉的连贯性。

通过这种智能化的转换处理，VGoT生成的多镜头视频避免了传统方法中常见的"跳跃感"问题。观众观看时会感到整个视频像是一部完整的作品，而不是多个独立片段的简单拼接。

**四、训练免费的整合框架：化繁为简的技术整合**

VGoT最令人印象深刻的特点之一是它不需要额外的训练就能工作。这就像是一个熟练的厨师，能够使用现有的食材和工具制作出全新的菜品，而不需要重新学习烹饪技巧。这种"训练免费"的特性让VGoT具有了极强的实用性和可扩展性。

传统的AI视频生成方法通常需要大量的训练数据和计算资源来学习如何生成特定类型的视频。这个过程既耗时又昂贵，就像是要培训一个专业演员，需要长期的训练和大量的排练。而VGoT采用了一种全新的思路，它将现有的成熟技术组合起来，通过巧妙的协调和管理来实现多镜头视频生成。

系统的架构就像是一个协调良好的制作团队。编剧部门（动态故事建模）负责创作剧本，美术部门（身份感知传播）负责角色设计和视觉一致性，剪辑部门（转换机制）负责镜头的衔接和流畅性。每个部门都使用现有的专业工具，但通过VGoT的协调，它们能够无缝配合，产生远超各部分简单相加的效果。

这种设计哲学的优势在于灵活性和可维护性。当某个组件有了更好的替代品时，比如出现了更先进的图像生成模型或者更智能的文本理解系统，VGoT可以轻松地替换相应的组件，而不需要重新训练整个系统。这就像是升级汽车的某个零件，不需要重新学习驾驶技能。

更重要的是，这种方法大大降低了技术使用的门槛。用户不需要准备大量的训练数据，不需要昂贵的计算资源进行模型训练，只需要提供一个简单的文本描述，系统就能开始工作。这让高质量的多镜头视频生成技术从实验室走向了实际应用。

**五、实验结果：数据说话的技术验证**

为了验证VGoT的效果，研究团队进行了全面的测试和比较。他们创建了一个包含10个不同故事的测试集，每个故事包含30个镜头，总共300个镜头的视频内容。这些故事涵盖了从个人传记到冒险探索的各种类型，确保测试的全面性。

测试结果令人印象深刻。在角色一致性方面，VGoT的表现远超现有技术。具体来说，在同一镜头内的人脸一致性测试中，VGoT得分0.8138，比最好的对比方法高出20.4%。这意味着VGoT生成的视频中，同一个角色在镜头内的不同帧之间保持了更好的一致性，避免了角色外貌突然变化的问题。

更重要的是跨镜头的一致性表现。在这个更具挑战性的测试中，VGoT的表现更加突出，得分0.2688，比对比方法高出2.9倍。这个巨大的提升说明VGoT确实解决了多镜头视频生成中最核心的问题——让同一个角色在不同镜头中保持身份的一致性。

在视觉风格的一致性方面，VGoT同样表现优异。镜头内的风格一致性得分0.9717，比最佳对比方法高出17.4%。跨镜头的风格一致性更是达到了0.4276，比对比方法高出106.6%。这意味着VGoT生成的视频不仅在角色上保持一致，在整体的视觉风格上也更加统一和专业。

研究团队还进行了人工评估，邀请观众对生成的视频进行主观评价。结果显示，66.7%的评估者认为VGoT在跨镜头一致性方面表现"良好"，而最好的对比方法只有27.2%的"良好"评价。在整体视觉质量方面，70%的评估者给VGoT打出了"良好"的评分。

特别值得注意的是，VGoT实现这些优异表现的同时，所需的人工干预比传统方法减少了10倍。这意味着用户可以用更少的时间和精力获得更好的视频生成效果，这对于实际应用来说具有重要意义。

研究团队还进行了详细的消融实验，分别测试了系统各个组件的贡献。结果显示，当移除动态故事建模功能时，虽然某些指标有所提升，但生成的视频缺乏叙事的多样性，往往出现重复的镜头角度和单调的场景设置。当移除身份感知传播功能时，角色一致性显著下降，出现了明显的"换人"现象。这些实验证实了VGoT各个组件的重要性和相互协作的价值。

**六、技术突破的深远意义**

VGoT的技术突破不仅仅是学术上的进步，更代表了视频生成技术从"制作片段"向"创作完整作品"的重要转变。这种转变的意义可以从多个角度来理解。

从技术发展的角度看，VGoT证明了通过智能系统设计，可以在不增加训练成本的情况下实现功能的质的飞跃。这种思路为其他AI应用提供了重要启示：有时候，巧妙的系统架构比单纯的模型规模扩大更能带来实质性的进步。

从应用前景来说，VGoT为内容创作行业带来了新的可能性。传统的视频制作需要专业团队、昂贵设备和大量时间，而VGoT让个人用户也能制作出具有专业水准的多镜头视频。这不仅降低了内容创作的门槛，也为教育、营销、娱乐等领域提供了新的工具。

在教育领域，教师可以用VGoT快速制作历史事件的演示视频，将抽象的概念转化为直观的视觉故事。在商业领域，小企业可以制作产品宣传片或品牌故事视频，而不需要聘请专业的视频制作团队。在个人表达方面，普通用户可以制作家庭记录片或创意短片，记录和分享自己的生活故事。

从技术伦理的角度，研究团队也充分考虑了可能的风险和挑战。他们建议在使用这项技术时添加AI生成标识，避免误导观众。同时，他们也意识到这项技术可能被恶意使用来制作虚假信息，因此强调了负责任使用的重要性。

VGoT还为未来的研究指明了方向。研究团队提出了几个改进计划：整合更强大的视频生成模型来提高动作的多样性和长期一致性；扩展身份处理能力来支持多个主体的复杂交互；拓展文化和语言覆盖面来服务更广泛的用户群体；在脚本生成中引入更专业的电影编剧技巧。

这项研究的另一个重要贡献是建立了多镜头视频生成的评估框架。以前，研究者缺乏专门评估多镜头视频质量的标准化方法，往往只能依靠主观判断。VGoT提出的四个量化指标——镜头内人脸一致性、跨镜头人脸一致性、镜头内风格一致性、跨镜头风格一致性——为这个领域提供了客观的评估标准。

说到底，VGoT代表了AI视频生成技术的一个重要里程碑。它不仅解决了当前技术的核心限制，更重要的是展示了一种新的技术发展思路。通过将复杂问题分解为可管理的子问题，然后用巧妙的系统设计将解决方案整合起来，VGoT实现了从量变到质变的技术突破。

这种方法学对于其他AI应用领域也具有借鉴价值。它告诉我们，有时候最好的解决方案不是开发全新的复杂模型，而是以创新的方式组合现有的成熟技术。这种"站在巨人肩膀上"的研究思路，可能是AI技术走向实用化的重要路径。

对于普通用户来说，VGoT的意义在于它让高质量的视频创作变得触手可及。你不再需要学习复杂的视频编辑软件，不需要购买昂贵的设备，也不需要具备专业的拍摄技能。只需要一个好的想法和一句简单的描述，就能创作出令人印象深刻的视频作品。

这项技术的出现，让我们看到了AI技术真正服务于人类创造力的可能性。它不是要取代人类的创意，而是要放大人类的创意潜能，让每个人都能成为自己故事的导演。随着技术的进一步发展和普及，我们有理由相信，未来的内容创作世界将变得更加民主化、多元化和充满创意。

Q&A

Q1：VideoGen-of-Thought能生成多长的视频？

A：VGoT可以生成30个镜头的多镜头视频，相当于分钟级别的完整故事。每个镜头包含多帧画面，整个视频具有连贯的叙事结构和视觉一致性，远超传统AI视频生成技术只能制作短片段的限制。

Q2：使用VGoT生成视频需要什么技术基础？

A：VGoT的最大优势就是极大降低了使用门槛。用户只需要提供一句话的故事描述，比如"讲述一个人从年轻到老的人生历程"，系统就能自动完成从剧本创作到视频生成的全部工作，不需要专业的视频制作知识或昂贵的设备。

Q3：VGoT生成的视频角色为什么能保持一致？

A：VGoT使用了"身份感知的跨镜头传播"技术，为每个角色创建身份标识码。就像给演员制作身份档案一样，系统记住角色的核心特征，确保同一个人在不同镜头中始终保持相同的面部轮廓、眼型等关键特征，同时允许表情、年龄等合理变化。

来源：科技行者一点号1

标签：电影短片视频港科大团队港科大

本文地址：https://news.axiwang.com/a/195616.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐