摘要:视频生成技术现在火得不行,打开手机APP,输入文字就能生成短视频,甚至电影片段都能AI创作。
文 |有风
编辑 |有风
视频生成技术现在火得不行,打开手机APP,输入文字就能生成短视频,甚至电影片段都能AI创作。
但有个问题一直让人头疼,相机轨迹控制。
想让镜头从左到右平稳移动,生成的视频可能抖得像走路没踩稳,想做个环绕拍摄,物体突然"瘦身"或"膨胀",场景歪歪扭扭。
这不是个别现象,是现有视频生成模型的通病。
之前帮朋友用AI生成产品宣传视频,要求镜头从产品顶部缓缓下移,结果生成的画面里,产品边缘时而模糊时而锐利,镜头像被风吹得晃来晃去。
最后没办法,只能手动调整关键帧,折腾了半天才勉强能用。
这种"想控控不住"的感觉,做视频的朋友怕是最有体会。
说到相机轨迹控制,就得提现有模型的"命门",太依赖相机位姿数据了。
简单说,就是得告诉模型"镜头在哪个位置""朝哪个方向拍",它才能生成对应的画面。
可实际应用中,哪有那么多现成的位姿数据?大部分时候只能让模型自己猜。
猜的过程就容易出问题,模型会隐式推断场景的三维结构,比如哪个物体在前哪个在后,距离镜头多远。
三维结构这东西,看不见摸不着,模型想凭空猜准,难度不亚于蒙眼拼乐高。
前面一帧猜物体在镜头前3米,后面一帧猜成5米,镜头运动自然就不连贯,看着像卡壳了。
更麻烦的是,现有模型把画面好不好看(外观)和场景有没有立体感(结构)混在一起处理。
本来想优化一下色彩,结果不小心把物体的前后位置搞反了,想让人物表情更自然,背景的透视关系突然就乱了。
这种"牵一发而动全身"的耦合,让精准控制难上加难。
影视制作行业对这个问题最敏感,拍电影时,一个长镜头的运镜路线都是精确设计的,比如从演员面部特写缓缓拉远,展现整个场景氛围。
但用现有模型生成,镜头要么"跑过头",要么"停太早",甚至人物突然"穿模",半个身子钻进墙里。
这种瑕疵,专业制作根本没法用。
虚拟现实领域也受影响,VR里的画面得跟着用户视角实时变化,要是模型生成的场景几何关系不准,用户转头时,物体忽远忽近,很容易头晕。
本来想做个沉浸式虚拟展厅,结果变成"晕车体验",谁还愿意用?
这些问题不是小毛病,直接卡着视频生成技术落地的脖子。
那有没有办法让模型既能"看见"画面,又能"摸准"结构呢?DualCamCtrl就是冲着这个目标来的。
DualCamCtrl的核心思路挺有意思,把"看画面"和"摸结构"分开干。
它搞了两个独立的分支,一个专门负责生成RGB画面,管颜色、纹理这些"面子"问题。
另一个专门生成深度图,管每个点距离镜头多远,解决"里子"的结构问题。
本来想让两个分支各干各的可能会脱节,比如RGB生成了一个人站在桌子前,深度图却显示人在桌子后面。
但DualCamCtrl加了个"语义引导互对齐"机制,简称SIGMA。
这机制像个"协调员",让两个分支边干边沟通。
具体怎么协调?浅层的时候,RGB分支先把画面里的关键结构标出来,比如哪里是人脸,哪里是桌子边缘,给深度分支"指个路"。
深层的时候,深度分支再把算好的三维位置反馈给RGB分支,告诉它"这里的透视关系应该这样才对"。
这种双向沟通,比之前单向对齐靠谱多了。
训练的时候也分两步走,第一步先让两个分支各自练基本功,RGB分支把画面生成得清清楚楚,深度分支把结构算得明明白白。
第二步再练配合,通过SIGMA机制磨合,让两者能无缝衔接。
就像运动员先练单项,再练接力,配合自然更默契。
实验数据说话才实在,在ImagetoVideo任务里,给一张图片让模型生成视频,DualCamCtrl的相机运动误差比之前的SOTA模型降了不少。
直观感受就是,镜头从左到右移动,画面平稳得像用滑轨拍的,物体不会突然"漂移"。
TexttoVideo任务里也一样,输入"镜头环绕一座城堡缓缓上升",生成的视频里城堡的立体感和镜头运动轨迹,跟专业软件做的几乎没差。
影视行业的朋友看了估计会心动,以后拍广告片,要是现场没条件搭滑轨,或许能用DualCamCtrl先生成参考视频,看看运镜效果再调整。
VR开发者也能松口气,虚拟场景的几何准确性上去了,用户体验自然更好。
当然,这模型也不是完美的。
比如深度图的精度还能再提高,复杂动态场景下,快速移动的物体可能还会有点"小错位"。
但能把相机轨迹控制这个老大难问题解决大半,已经是不小的突破。
视频生成技术想真正走进专业领域,精准控制是绕不开的坎。
DualCamCtrl开了个好头,用"双分支+互对齐"的思路,给模型装上了"几何感知"的眼睛。
说不定过不了多久,咱们普通人用手机APP,也能生成堪比电影级运镜的视频了,到时候拍vlog,镜头想怎么动就怎么动,想想还挺期待的。
来源:有风来伊