相机轨迹控制失灵?DualCamCtrl双分支技术,实现电影级镜头控制

快播影视 港台电影 2025-12-24 20:00 2

摘要:视频生成技术现在火得不行,打开手机APP,输入文字就能生成短视频,甚至电影片段都能AI创作。

|有风

编辑 |有风

视频生成技术现在火得不行,打开手机APP,输入文字就能生成短视频,甚至电影片段都能AI创作。

但有个问题一直让人头疼,相机轨迹控制。

想让镜头从左到右平稳移动,生成的视频可能抖得像走路没踩稳,想做个环绕拍摄,物体突然"瘦身"或"膨胀",场景歪歪扭扭。

这不是个别现象,是现有视频生成模型的通病。

之前帮朋友用AI生成产品宣传视频,要求镜头从产品顶部缓缓下移,结果生成的画面里,产品边缘时而模糊时而锐利,镜头像被风吹得晃来晃去。

最后没办法,只能手动调整关键帧,折腾了半天才勉强能用。

这种"想控控不住"的感觉,做视频的朋友怕是最有体会。

说到相机轨迹控制,就得提现有模型的"命门",太依赖相机位姿数据了。

简单说,就是得告诉模型"镜头在哪个位置""朝哪个方向拍",它才能生成对应的画面。

可实际应用中,哪有那么多现成的位姿数据?大部分时候只能让模型自己猜。

猜的过程就容易出问题,模型会隐式推断场景的三维结构,比如哪个物体在前哪个在后,距离镜头多远。

三维结构这东西,看不见摸不着,模型想凭空猜准,难度不亚于蒙眼拼乐高。

前面一帧猜物体在镜头前3米,后面一帧猜成5米,镜头运动自然就不连贯,看着像卡壳了。

更麻烦的是,现有模型把画面好不好看(外观)和场景有没有立体感(结构)混在一起处理。

本来想优化一下色彩,结果不小心把物体的前后位置搞反了,想让人物表情更自然,背景的透视关系突然就乱了。

这种"牵一发而动全身"的耦合,让精准控制难上加难。

影视制作行业对这个问题最敏感,拍电影时,一个长镜头的运镜路线都是精确设计的,比如从演员面部特写缓缓拉远,展现整个场景氛围。

但用现有模型生成,镜头要么"跑过头",要么"停太早",甚至人物突然"穿模",半个身子钻进墙里。

这种瑕疵,专业制作根本没法用。

虚拟现实领域也受影响,VR里的画面得跟着用户视角实时变化,要是模型生成的场景几何关系不准,用户转头时,物体忽远忽近,很容易头晕。

本来想做个沉浸式虚拟展厅,结果变成"晕车体验",谁还愿意用?

这些问题不是小毛病,直接卡着视频生成技术落地的脖子。

那有没有办法让模型既能"看见"画面,又能"摸准"结构呢?DualCamCtrl就是冲着这个目标来的。

DualCamCtrl的核心思路挺有意思,把"看画面"和"摸结构"分开干。

它搞了两个独立的分支,一个专门负责生成RGB画面,管颜色、纹理这些"面子"问题。

另一个专门生成深度图,管每个点距离镜头多远,解决"里子"的结构问题。

本来想让两个分支各干各的可能会脱节,比如RGB生成了一个人站在桌子前,深度图却显示人在桌子后面。

但DualCamCtrl加了个"语义引导互对齐"机制,简称SIGMA。

这机制像个"协调员",让两个分支边干边沟通。

具体怎么协调?浅层的时候,RGB分支先把画面里的关键结构标出来,比如哪里是人脸,哪里是桌子边缘,给深度分支"指个路"。

深层的时候,深度分支再把算好的三维位置反馈给RGB分支,告诉它"这里的透视关系应该这样才对"。

这种双向沟通,比之前单向对齐靠谱多了。

训练的时候也分两步走,第一步先让两个分支各自练基本功,RGB分支把画面生成得清清楚楚,深度分支把结构算得明明白白。

第二步再练配合,通过SIGMA机制磨合,让两者能无缝衔接。

就像运动员先练单项,再练接力,配合自然更默契。

实验数据说话才实在,在ImagetoVideo任务里,给一张图片让模型生成视频,DualCamCtrl的相机运动误差比之前的SOTA模型降了不少。

直观感受就是,镜头从左到右移动,画面平稳得像用滑轨拍的,物体不会突然"漂移"。

TexttoVideo任务里也一样,输入"镜头环绕一座城堡缓缓上升",生成的视频里城堡的立体感和镜头运动轨迹,跟专业软件做的几乎没差。

影视行业的朋友看了估计会心动,以后拍广告片,要是现场没条件搭滑轨,或许能用DualCamCtrl先生成参考视频,看看运镜效果再调整。

VR开发者也能松口气,虚拟场景的几何准确性上去了,用户体验自然更好。

当然,这模型也不是完美的。

比如深度图的精度还能再提高,复杂动态场景下,快速移动的物体可能还会有点"小错位"。

但能把相机轨迹控制这个老大难问题解决大半,已经是不小的突破。

视频生成技术想真正走进专业领域,精准控制是绕不开的坎。

DualCamCtrl开了个好头,用"双分支+互对齐"的思路,给模型装上了"几何感知"的眼睛。

说不定过不了多久,咱们普通人用手机APP,也能生成堪比电影级运镜的视频了,到时候拍vlog,镜头想怎么动就怎么动,想想还挺期待的。

来源:有风来伊

相关推荐