摘要:这模型到底能不能打?咱们今天就实测看看,分镜控制和角色扮演这俩核心本事,到底有多强。
文 |姑苏九歌
编辑 |姑苏九歌
12月16日,阿里突然放出个新产品,视频生成模型"万相2.6系列"。
发布会直接喊出"全球功能最全",还带了个国内头一份的"角色扮演"功能。
这模型到底能不能打?咱们今天就实测看看,分镜控制和角色扮演这俩核心本事,到底有多强。
先说说这模型咋来的,三个月前阿里刚发了万相2.5,当时就吹能做到音画同步。
现在2.6直接跳级,说是专门冲着"专业影视创作"去的。
最大的变化是视频时长,从之前没明说的数秒,提到了国内最高的15秒。
别小看这15秒,对拍个小剧情、广告片来说,够用了。
最让人感兴趣的是分镜控制,以前用AI生成视频,最头疼的就是镜头乱跳。
上一秒还在教室,下一秒可能突然跑到大街上,主角脸都变了。
万相2.6说能看懂专业脚本术语,比如"中景推近""全景转特写",保证镜头切换时人不变、场景不乱。
官方给了个"爱豆台前幕后"的例子,输入数字人照片,再写三个镜头脚本,舞台唱歌、化妆镜前卸妆、骑摩托车离开。
生成的视频里,从舞台灯光到化妆间的镜子反光,再到摩托车的金属质感,切换还挺自然,没出现人突然消失或者脸歪掉的情况。
这要是让我这种不会剪辑的人来弄,以前想都不敢想。
不过多人互动还是有点拉胯,试了个"朋友聚会碰杯"的脚本,三个人站一块儿,举杯的动作要么慢半拍,要么手穿过杯子,跟提线木偶似的。
问了官方技术人员,说现在AI对多人肢体接触的理解还不到位,得等后续优化。
另一个大亮点是角色扮演,简单说,就是把现成视频里的人换成你想要的样子,动作表情还能跟着原视频走。
国内之前没模型能做到这个,试了下网上流传的马斯克采访视频,把他换成"女版马斯克",发型、衣服都变了,但说话的语气、手势跟原视频几乎一样。
更有意思的是赫敏拥抱哈利·波特的场景,上传自己的照片当"分身",模型真能把赫敏换成我。
不过问题来了,哈利·波特的脸偶尔会被误认成要替换的角色,突然变成我的脸,吓我一跳。
官方也承认,这种"张冠李戴"的穿帮避免不了,建议多生成几次挑最好的。
这要是真用在正经视频里,怕是得挨骂。
为啥能做到这些?技术人员说底层用了"多模态联合建模"。
听不懂没关系,简单说就是它把视频的时间变化,比如人脸上的表情、身体怎么动、从不同角度看过去的样子,和声音特点,像说话的调调、快慢,揉到一块儿学,这样画面和声音才能一块儿"搬家",不容易错位。
但官方也"没有模型能完全不出错",想用好还得靠用户自己多试几次。
光说不练假把式,咱们自己上手试试。
先从个人创作场景开始,毕竟这模型主打的就是"低门槛"。
第一个试的是校园表白场景,上传学校操场的照片,写了个简单脚本,男生递花、说"我喜欢你"、女生点头接受。
生成视频花了大概3分钟,画面清晰度还行,男生递花的动作、嘴型和配的声音能对上。
但表情跟真人比还是差点意思,像是戴着面具说话,有点假。
旁边看热闹的同学更夸张,站那儿一动不动,跟雕塑似的。
问了经常拍短视频的朋友,他说这"AI味"是通病,"现在的模型都这样,动作僵硬,情绪不到位,只能看个大概意思"。
不过对咱们这种不会拍视频的人来说,能生成个完整的小故事,已经算惊喜了。
再试试专业点的分镜脚本,按官方教程,输入"爱豆舞台唱歌(聚光灯,动感)-后台卸妆(暖光,疲惫)-骑摩托车离开(黄昏,洒脱)",上传一张虚拟偶像的照片。
生成的视频里,舞台灯光闪烁时,爱豆的头发丝都能看清,卸妆时手擦脸的动作也自然,骑摩托车时风吹起衣服,还真有点电影里的感觉。
朋友看完说,"这要放在以前,得找摄影师拍素材,再用剪辑软件调半天,现在输段文字就有了,确实省事儿。
"不过他也挑出毛病,"摩托车场景里,爱豆的手没抓稳车把,看着像要掉下来,这种细节还是不行。"
专业影视辅助这块,官方给的科幻悬疑短片示例有点意思。
用户上传自己在家拍的视频,输入"未来城市废墟,主角紧张喘气,发现神秘符号",模型直接给分镜,先远景拍废墟,再近景拍主角脸,然后特写符号,还配了紧张的背景音。
以前拍个短片得导演、画画的、剪片子的凑一块儿磨半天,现在输入脚本就能出个大概,确实省事儿。
影视公司的朋友看了直摇头,"这只能当草稿用,真要拍成片,还得人工改。
比如符号的位置不对,主角喘气的节奏跟画面不搭,这些都得调。
"但他也承认,"对小团队来说,能快速出个样片给客户看,已经很有用了。"
企业想用也方便,个人直接上官网,企业通过阿里云就能调用接口,过段时间千问APP里也会有。
万相家族现在啥都能干,写文字生成图、图片转视频、声音变视频,一套工具包全搞定。
电商卖家拍商品视频、老师做教学动画,估计能用上不少。
不过问题也得说清楚,虽然喊着"全球功能最全",但单次只能生成15秒视频,跟国外能做60秒的比,还是短了点。
想拍个30秒的广告,得生成两段拼起来,中间容易断片。
官方说接下来会突破时长限制,希望快点吧。
版权问题更头疼,角色扮演功能换明星脸、换影视角色,这要是没授权,人家能告你不?官方没说怎么解决,只提示"用户自行承担风险"。
没授权就换人家脸,这事儿法律上能不能说通,真不好说。
之前就有AI换脸视频被告的例子,这坑得小心。
最后说句实在话,万相2.6确实让视频生成往前迈了一大步,分镜控制和角色扮演都是真本事。
但它说到底是个工具,帮人省时间、出创意,真要替代导演编剧,还差得远。
毕竟视频的灵魂是情感,AI现在顶多做到"像",离"真"还有距离。
普通人想过把导演瘾,用它玩玩没问题,专业人士拿它当辅助工具,也挺实用。
但要是指望它一步登天,怕是要失望。
未来怎么样不好说,至少现在,它让"人人拍视频"这事儿,离我们近了点。
来源:姑苏九歌