相机轨迹控制失灵？DualCamCtrl双分支技术，实现电影级镜头控制

摘要：视频生成技术现在火得不行，打开手机APP，输入文字就能生成短视频，甚至电影片段都能AI创作。

文 |有风

编辑 |有风

视频生成技术现在火得不行，打开手机APP，输入文字就能生成短视频，甚至电影片段都能AI创作。

但有个问题一直让人头疼，相机轨迹控制。

想让镜头从左到右平稳移动，生成的视频可能抖得像走路没踩稳，想做个环绕拍摄，物体突然"瘦身"或"膨胀"，场景歪歪扭扭。

这不是个别现象，是现有视频生成模型的通病。

之前帮朋友用AI生成产品宣传视频，要求镜头从产品顶部缓缓下移，结果生成的画面里，产品边缘时而模糊时而锐利，镜头像被风吹得晃来晃去。

最后没办法，只能手动调整关键帧，折腾了半天才勉强能用。

这种"想控控不住"的感觉，做视频的朋友怕是最有体会。

说到相机轨迹控制，就得提现有模型的"命门"，太依赖相机位姿数据了。

简单说，就是得告诉模型"镜头在哪个位置""朝哪个方向拍"，它才能生成对应的画面。

可实际应用中，哪有那么多现成的位姿数据？大部分时候只能让模型自己猜。

猜的过程就容易出问题，模型会隐式推断场景的三维结构，比如哪个物体在前哪个在后，距离镜头多远。

三维结构这东西，看不见摸不着，模型想凭空猜准，难度不亚于蒙眼拼乐高。

前面一帧猜物体在镜头前3米，后面一帧猜成5米，镜头运动自然就不连贯，看着像卡壳了。

更麻烦的是，现有模型把画面好不好看（外观）和场景有没有立体感（结构）混在一起处理。

本来想优化一下色彩，结果不小心把物体的前后位置搞反了，想让人物表情更自然，背景的透视关系突然就乱了。

这种"牵一发而动全身"的耦合，让精准控制难上加难。

影视制作行业对这个问题最敏感，拍电影时，一个长镜头的运镜路线都是精确设计的，比如从演员面部特写缓缓拉远，展现整个场景氛围。

但用现有模型生成，镜头要么"跑过头"，要么"停太早"，甚至人物突然"穿模"，半个身子钻进墙里。

这种瑕疵，专业制作根本没法用。

虚拟现实领域也受影响，VR里的画面得跟着用户视角实时变化，要是模型生成的场景几何关系不准，用户转头时，物体忽远忽近，很容易头晕。

本来想做个沉浸式虚拟展厅，结果变成"晕车体验"，谁还愿意用？

这些问题不是小毛病，直接卡着视频生成技术落地的脖子。

那有没有办法让模型既能"看见"画面，又能"摸准"结构呢？DualCamCtrl就是冲着这个目标来的。

DualCamCtrl的核心思路挺有意思，把"看画面"和"摸结构"分开干。

它搞了两个独立的分支，一个专门负责生成RGB画面，管颜色、纹理这些"面子"问题。

另一个专门生成深度图，管每个点距离镜头多远，解决"里子"的结构问题。

本来想让两个分支各干各的可能会脱节，比如RGB生成了一个人站在桌子前，深度图却显示人在桌子后面。

但DualCamCtrl加了个"语义引导互对齐"机制，简称SIGMA。

这机制像个"协调员"，让两个分支边干边沟通。

具体怎么协调？浅层的时候，RGB分支先把画面里的关键结构标出来，比如哪里是人脸，哪里是桌子边缘，给深度分支"指个路"。

深层的时候，深度分支再把算好的三维位置反馈给RGB分支，告诉它"这里的透视关系应该这样才对"。

这种双向沟通，比之前单向对齐靠谱多了。

训练的时候也分两步走，第一步先让两个分支各自练基本功，RGB分支把画面生成得清清楚楚，深度分支把结构算得明明白白。

第二步再练配合，通过SIGMA机制磨合，让两者能无缝衔接。

就像运动员先练单项，再练接力，配合自然更默契。

实验数据说话才实在，在ImagetoVideo任务里，给一张图片让模型生成视频，DualCamCtrl的相机运动误差比之前的SOTA模型降了不少。

直观感受就是，镜头从左到右移动，画面平稳得像用滑轨拍的，物体不会突然"漂移"。

TexttoVideo任务里也一样，输入"镜头环绕一座城堡缓缓上升"，生成的视频里城堡的立体感和镜头运动轨迹，跟专业软件做的几乎没差。

影视行业的朋友看了估计会心动，以后拍广告片，要是现场没条件搭滑轨，或许能用DualCamCtrl先生成参考视频，看看运镜效果再调整。

VR开发者也能松口气，虚拟场景的几何准确性上去了，用户体验自然更好。

当然，这模型也不是完美的。

比如深度图的精度还能再提高，复杂动态场景下，快速移动的物体可能还会有点"小错位"。

但能把相机轨迹控制这个老大难问题解决大半，已经是不小的突破。

视频生成技术想真正走进专业领域，精准控制是绕不开的坎。

DualCamCtrl开了个好头，用"双分支+互对齐"的思路，给模型装上了"几何感知"的眼睛。

说不定过不了多久，咱们普通人用手机APP，也能生成堪比电影级运镜的视频了，到时候拍vlog，镜头想怎么动就怎么动，想想还挺期待的。

来源：有风来伊

标签：电影镜头相机 sigma dualcamctrl

本文地址：https://news.axiwang.com/a/157348.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐