摘要:去年5月我发过一条朋友圈:不负责任地盲猜,最晚2026年,会有一部漫威质量的纯AI制作电影全球上映。然后,大量媒体开始写:好莱坞死了。
去年5月我发过一条朋友圈:不负责任地盲猜,最晚2026年,会有一部漫威质量的纯AI制作电影全球上映。然后,大量媒体开始写:好莱坞死了。
这两天,一个爆火的新模型,让我感觉这一天越来越近了。
我甚至看到网上有人说:2026,会是传统电影的“最后一年”。我们正在见证全新电影的诞生。
真有那么夸张吗?写篇文章,记录一下,顺便带你回顾是怎么回事。
01
改变视频行业的AI,快来了
这两天,我朋友圈被一条条震撼视频刷屏了。
这是字节旗下的即梦内测最新视频模型Seedance2.0。按理说,新模型发布我们已经不稀奇了,几个礼拜一个几个礼拜一个。今早看到吴晓波老师一句话:中国AI人,已经三年没过好年了。我会心一笑。别说研发者了,我们这种媒体,都已经连续好几年春节在家写稿,年年撞上“突然发布的现象级大模型”。
然而,Seedance2.0的效果,还是有亿点点超预期。
在X上,已经有一大堆用户测评,给出极高的评价。
它只用一两句提示词,就能生出电影级大片。它能让蜜雪冰城和星巴克等好几个咖啡品牌,在东方明珠下贴身肉搏。把咖啡大战“具象化”。哎呀,文字实在表达不出感觉,我从Tim(影视飓风)的视频里截一小段,你一看就明白。
它厉害在哪?具体来说,在至少3个方面有了极大提高。
1、运动时的人物精细度
以前很多AI视频,定格画面还行。但只要一动,五官就像在拍《午夜凶铃》,到处乱飞。
但你看Seedance2.0生成的内容,衣服的光泽很自然、发丝的阴影很自然。如果你暂停看,甚至能发现,连门锁金属的反光都很自然。
2、细滑且高级的运镜
很多视频人都有个口头禅:这个视频有“廉价感”。其实基本差就差在运镜上。以前的AI视频,要么是动的固定机位,要么是无逻辑的乱晃。
但你看这个,这是我用年度演讲现场照片生成的视频。
注意它的视角,就像是架在一台专业摇臂上。而且它不是机械平移,甚至可以环绕和俯冲。我们真实现场摄影师拍的效果,也差不多就是这样了。
3、充满叙事逻辑的分镜
Tim的视频里也有提到,过往的视频模型是没有什么“分镜思维”的。都是为了切镜头而切镜头,最多给点特写,镜头间是毫无逻辑的。
但你看这段“星际穿越”的视频,你能看出,镜头的切换明显是有逻辑的,它能理解“当前的画面在干什么”,用各种镜头语言帮你理解“什么是现在的重点”。它知道什么叫“导演逻辑”。
当然,它也说不上完美无瑕。比如,上面那个蜜雪冰城大战咖啡人的视频,你仔细看能看到,前一秒东方明珠是被激光击中了的。下一秒,它又完好无损的出现在背景里。
但总之,考虑到这是只给了“一句话”就生成的视频,已经足够震撼。
02
为什么能这么厉害?因为“两只手画画”
我赶紧去研究了一下,为什么它能这么厉害?究竟是靠什么技术?我试着用大白话给你说明白。
传统视频经常“畸形”,就是因为在视频生成领域,有两个目标一直在打架:
目标1:内容一致性,俗称“长得像”。
AI得盯着你上传的那张照片,不能把你的眼睛画大,也不能把你的衣服换了。
目标2:动作自然度,俗称“动得顺”。
AI得让你的身体动起来,比如挥手、走动,还要保持光影自然。
过往的视频大模型,只有一条“处理流水线”(专业术语叫“
分支
”),所以往往会顾此失彼:要么为了让你动起来,脸就变形了。要么为了保住你的脸,整个人就僵在那像个 PPT。
但这次的Seedance2.0,用了一种“
双分支扩散
”技术。它就像给AI配了两条一起协作的流水线。
流水线1:动作分支。
它负责“构思动作”。根据指令(比如“在街头漫步”)去计算像素该怎么动,确保物理连贯,手臂不会不自然的弯曲。
流水线2:内容分支。
它负责“盯着照片”。它提取特征。包括面部、发型、肤质。确保像素级一致。脸部不再恐怖变形。
而且,这两条流水线并不是各跑各的,它们之间有一个“跨注意力机制”,它是两个分支之间的协调员,不停进行信息交换。这样,Seedance2.0就可以通过调节这两个分支的“发言权”,确保动作不走形。比如,设定“长相上100%听内容分支的,动作上100%听动作分支的”。
这就解决了前面那个难题:以前动起来就脸崩,现在因为外观分支拥有“绝对话语权”,所以脸被死死“锁”住了。
就像两只手作画,右手画皮,左手画骨。动作分支问:我现在要让这个身体转个身,该怎么画?内容分支答:给,这是他转身后侧脸该有的轮廓,别画错了。
惊艳的效果,就在这样实现的。
03
用本人授权,解决安全隐患
昨天看到了一大堆讨论和测试视频,又听说这个“真人人脸”的功能好像一度被下架。我好奇极了,按住发痒的双手想试试,结果,果然没成功。
仔细一看,原来Seedance2.0下方标注了一行小字:暂不支持真人人脸。
我很奇怪,用自己的脸拍电影,这才有趣啊?为什么不支持。一搜之下,马上明白了人们的担忧。
这个模型的效果真的太好了,好到你甚至很难通过“寻找破绽”来安慰自己。以往那种僵硬的表情、漂移的五官消失了,取而代之的是极致的真实。这在技术上叫“突破”,但也会让人担忧。
你会不自觉地打个冷颤:
“如果屏幕那头,一个长得和我一模一样、声音分毫不差的人,正对着我年迈的父母谈笑风生,他们该如何分辨?”
字节的伙伴告诉我,在内测阶段,就有很多人在讨论,会不会被坏人利用?《黑神话:悟空》之父冯骥也评价说,这是当前地表最强视频生成模型,没有之一。但同时也在担忧,会不会造成假视频泛滥?
幸好,这是个技术问题,不是路线问题。通过技术调整,很好找到解决方案:活体检测。
字节的伙伴告诉我,你试试手机APP版,做一下本人的授权验证,就没问题了。
我试了试,果然,它让我打开摄像头,先读一段数字,再把脸向左转、向右转。通过验证后,上传视频,给指令,做一段我开着敞篷跑车在海边吹风,就能看到这样的结果。
怎么样?是不是有点意思。
很多年后,回头来看,也许我们会发现,很多行业的逻辑,都会被改变。
比如,电影行业。原本的生产方式,可能被彻底重构。
现在的影视剧,如果演员后期台词改了,或者某个镜头要补拍,场地、演员、灯光,随便一弄就是六位数七位数的成本。在一些特殊情况下,像《速度与激情》的保罗·沃克,在拍摄过程中去世,就会留下永久的遗憾。
但现在,只要获得本人或者亲属的授权,就可以AI补拍。甚至,真的还需要明星真人出镜吗?都不一定了。这就是为什么有人说:2026,是“传统电影”的最后一年。
比如,心理咨询行业。我们有可能获得一个“24小时的理想倾听者”。
现在的心理咨询,非常昂贵且受限于时间。然而,在得到你本人(或者你信任的人)授权后,AI可以生成一个你最信任、最能给你安全感,还完美掌握前沿心理学知识的“数字分身”。
它长着一张你最亲近的脸,用最温柔的语气和你对话。许多抑郁症患者、孤独老人、焦虑人群,都会因此受益。
但这一切都有个前提:只要是真人,就要确保必须得到本人或者亲人的授权。一定要有这样的机制。
好在,字节的伙伴,已经充分意识到了这一点。
有了这道安全感,我们再来看那些被重构的未来,才会觉得是惊喜,而不是惊吓。
最后的话
十年以后,面对大屏幕,当我们以现在无法想象的全新形式看着电影,也许会回忆起2026年春节前,这个遥远的下午。
网上有一句非常扎心的话:
我们总是以为,技术的进步,会减少普通人和高手间的差距。然而残酷的现实是,每次,它都会拉大差距。
因为技术只是一根“杠杆”。它把普通人的努力放大了10倍,却把高手的洞察放大了1000倍。这难免让人感到“冒犯”。所以,每一项伟大的发明诞生时,人类的第一反应往往不是欢呼,而是恐惧。
电灯发明时,总被担心“光对眼睛有害”。微波炉发明时,总被担心有“死亡射线”。照相机发明时,甚至有人担心它会“吸走灵魂”。
然而,就像照相机没有杀死绘画,它只是杀死了“作为复印机的画家”,然后催生了梵高、高更、莫奈。
当导演的门槛降到零,剩下的,也就只剩大导演们对世界独一无二的理解。
斯皮尔伯格如果不是犹太裔,没有经历过犹太家庭从小的耳濡目染和深入骨髓的民族伤痕,就拍不出《辛德勒的名单》
卡梅隆如果不是对深海有着近乎偏执的狂热,没有在无数次深潜中,直面过那种足以毁灭一切的孤独与静谧,就拍不出《泰坦尼克号》。
王家卫如果不是从上海移居香港,没有在那代人特有的漂泊感中长大,没有在灯红酒绿的疏离中体会过那种“欲言又止”的孤独,就拍不出《花样年华》。
这些东西,AI永远学不会,因为它没有经历过你所经历的寒冬,也没有见过你所见过的盛放。
2026年,也许真的是传统电影行业的最后一年。但那又怎样?技术杀死的只是胶片,而人那颗不可模拟的灵魂,才是永不落幕的电影。
观点
/ 刘润
主笔
/ 歌平
编辑
/ 歌平
版面
/ 黄静
来源:刘润商学