摘要:仅凭一段随手拍摄的单目视频,是否能够让镜头在空间中自由飞行,让光线随意变换,让原本固定的真实场景在全新的视角与照明条件下被再次「拍摄」?这一过去被视作科幻设想的问题,如今迎来了明确答案。
仅凭一段随手拍摄的单目视频,是否能够让镜头在空间中自由飞行,让光线随意变换,让原本固定的真实场景在全新的视角与照明条件下被再次「拍摄」?这一过去被视作科幻设想的问题,如今迎来了明确答案。
近日,新加坡南洋理工大学 S-Lab、北京智源人工智能研究院(BAAI)、华中科技大学、清华大学智能产业研究院(AIR)等多家科研机构联合推出 Light-X —— 全球首个实现「镜头 × 光照」双维度可控 的 4D 视频生成框架。Light-X 让「按用户意图重新导演一段视频」成为现实:既能自由规划镜头轨迹、生成任意新视角内容,也能灵活调整光源方向、亮度与风格 —— 从电影级布光到赛博霓虹氛围,都能在一段普通视频中轻松实现。
研究背景
现实世界的视觉体验由几何、运动和光照共同构成,而我们日常拍摄的单目视频,只是这一复杂四维时空的二维投影。若能在拍摄后重新控制镜头位置、自由调节光照条件,那么普通视频就能具备「可重拍摄」、「可再导演」的能力。无论是电影制作、虚拟拍摄,还是 AR/VR 内容生成,都将受益匪浅。
现有研究大多沿着两条彼此独立的路线发展:
视频重打光:如 Light-A-Video 在单帧 IC-Light 的基础上扩展到视频级光照编辑,但仍难以兼顾光照质量与时间一致性,更无法支持视角变化。相机可控的视频生成:最近的 TrajectoryCrafter、ReCamMaster 等方法能够生成全新镜头,但完全不涉及光照变化。然而,真实场景的观感由几何、运动和光照共同决定,仅操控其中单一因素难以实现真正自然、可信的重渲染。在单目视频中同时实现「镜头 × 光照」联合控制,是此前从未被解决的问题。
其核心挑战主要包括:
缺乏成对数据:真实世界几乎不存在「同一动态场景 × 多光照 × 多视角」的视频数据,使模型难以同时学习光照调节与视角变化的联合控制规律。多维因素耦合:光照变化、相机运动与场景几何相互影响,任一维度的变化都可能引入光照闪烁或几何不稳定。要在生成新视角的同时保持光照逼真与时序连贯性,其难度远高于单独完成其中任一任务。在这一背景下,Light-X 的提出填补了关键空白:它第一次在单目视频场景中统一解决了相机轨迹控制与光照控制,让视频具备真正意义上的 4D 多维可编辑能力。
方法架构
Light-X 的核心思路,是将相机控制与光照控制先解耦,再在扩散模型中统一融合,从而在单目视频中实现真正的「镜头 × 光照」双可控生成。
显式解耦相机与光照
Light-X 首先从输入视频中分别构建两条分支:1)动态点云(用于相机控制):从视频估计深度,反投影成随时间变化的动态点云。再根据用户的相机轨迹,将其投影成新视角的几何渲染图和可见性掩码。2)重打光点云(用于光照控制):对输入视频选取某一帧做重光照,再反投影成光照点云,并投影到目标视角,得到光照渲染与光照掩码。通过分别构建「几何分支」和「光照分支」,Light-X 在建模阶段将两种因素成功解耦。
联合条件的视频扩散模型
在生成阶段,Light-X 会将两条分支的线索统一输入扩散模型:1)细粒度几何与光照线索:几何渲染提供场景结构与运动信息;光照渲染提供逐像素的光照变化线索。2)全局光照 token 保持风格一致:模型从重光照帧中提取全局光照 token,用于维持长时间段的光照风格、亮度和方向一致性。
图 1 Light-X 框架总览
数据构建
为训练具备「镜头 × 光照」联合控制能力的模型,Light-X 需要成对的几何对齐、多光照、多视角训练数据。然而真实世界几乎不存在这样的数据。为此,我们构建了 Light-Syn,一种从单目视频自动合成训练数据的流程。
退化:把真实视频变成「输入视频」
Light-Syn 以普通视频作为目标视频,然后通过现有算法合成一个品质更低的「输入视频」。
逆向映射:恢复训练所需的条件线索
基于退化过程的记录,Light-Syn 自动生成:
对齐的几何渲染与可见区域稀疏的重光照视频重光照后的渲染与掩码这些信号构成 Light-X 学习「该看到什么」和「光该如何变化」的条件。
多来源数据覆盖更多场景
Light-Syn 构建的数据来自三类视频:
静态场景视频(多视角几何更稳定)场景视频(运动更真实)AI 生成视频(光照风格更丰富)这种多来源设计让模型既能学到真实的运动结构,又能适应多样化的光照风格。
图 2 数据管线 Light-Syn 总览
方法框架和数据管线灵活性
得益于 Light-X 的统一建模方式,它可以同时支持多种形式的光照输入,包括:HDR 环境光,参考图光照,文本 / 背景图光照,不同光照模式在训练中通过软掩码区分,使同一个模型即可泛化到多种光照条件,无需为每种模式分别训练。
图 3 多模态光照数据构建与条件机制示意图
实验结果
Light-X 在两个核心任务上进行了系统评测:(1)镜头 × 光照联合控制 和 (2)视频重打光。在所有基准上,Light-X 都显著优于现有方法。
镜头 × 光照联合控制
由于此前没有能同时做「新视角生成 + 重光照」的方法,论文构建了多种组合式 baseline,例如 TrajectoryCrafter + IC-Light、Light-A-Video + TrajectoryCrafter 等。如表 1 和图 4 所示,Light-X 在图像质量、视频平滑性以及用户偏好等多项指标上均取得显著领先,实现了当前最优的联合控制效果。
表 1 镜头 × 光照联合控制任务的定量结果。用户偏好表示选择我们方法的参与者比例
图 4 镜头 × 光照联合控制的视频对比
视频重打光
表 2 和图 5 展示了视频重打光任务的定量和定性结果。相比 IC-Light、Light-A-Video 等方法,Light-X 在图像质量、时间一致性和用户偏好上均取得明显优势,整体呈现出更高的光照真实性与视频稳定性。
表 2 视频重打光任务的定量结果
图 5 视频重打光的视频结果对比
消融实验
消融实验(表 3)从数据构建、模型结构与光照机制条件设计三个方面进行分析。结果表明:多源数据(静态、动态与 AI 生成)对于提升新视角质量、运动稳定性及光照多样性至关重要;细粒度光照线索与全局光照控制显著改善光照一致性和稳定性;训练策略中的软掩码与单帧重打光设计同样关键,可避免光照域混淆并提升时序一致性。
表 3 消融实验定量结果
图 6 Light-X 多维度控制能力展示
图 7 Light-X 支持交互式调节视频中的光照区域与方向,实现细粒度、可控的重打光效果
总结
Light-X 提出了首个能够从单目视频同时控制镜头运动与光照的 4D 视频生成框架。通过将相机与光照因素显式解耦,利用动态点云提供几何与运动先验,并通过重打光帧构建光照线索,Light-X 在统一的扩散模型中实现了稳定、高保真的联合调控。同时提出了 Light-Syn 数据管线,使模型无需真实的多视角、多光照采集即可完成训练。大量实验表明,Light-X 在「镜头 × 光照」联合控制和视频重打光任务上均显著优于现有方法,并能灵活适配多种光照模式。
尽管如此,Light-X 仍依赖单帧重打光质量和深度估计精度,在极端光照、错误深度或大范围相机运动下仍可能受到影响。此外,扩散模型的多步去噪也带来一定的计算成本。未来工作可探索更强的视频生成 backbone、更稳健的几何建模策略以及长视频生成技术,以进一步提升质量与适用性。
来源:机器之心Pro一点号