国产AI放大招，万相2.6号称全球功能最全，15秒视频拍出电影感？

快播影视韩国电影 2025-12-18 16:56 56

摘要：这模型到底能不能打？咱们今天就实测看看，分镜控制和角色扮演这俩核心本事，到底有多强。

文 |姑苏九歌

编辑 |姑苏九歌

12月16日，阿里突然放出个新产品，视频生成模型"万相2.6系列"。

发布会直接喊出"全球功能最全"，还带了个国内头一份的"角色扮演"功能。

这模型到底能不能打？咱们今天就实测看看，分镜控制和角色扮演这俩核心本事，到底有多强。

先说说这模型咋来的，三个月前阿里刚发了万相2.5，当时就吹能做到音画同步。

现在2.6直接跳级，说是专门冲着"专业影视创作"去的。

最大的变化是视频时长，从之前没明说的数秒，提到了国内最高的15秒。

别小看这15秒，对拍个小剧情、广告片来说，够用了。

最让人感兴趣的是分镜控制，以前用AI生成视频，最头疼的就是镜头乱跳。

上一秒还在教室，下一秒可能突然跑到大街上，主角脸都变了。

万相2.6说能看懂专业脚本术语，比如"中景推近""全景转特写"，保证镜头切换时人不变、场景不乱。

官方给了个"爱豆台前幕后"的例子，输入数字人照片，再写三个镜头脚本，舞台唱歌、化妆镜前卸妆、骑摩托车离开。

生成的视频里，从舞台灯光到化妆间的镜子反光，再到摩托车的金属质感，切换还挺自然，没出现人突然消失或者脸歪掉的情况。

这要是让我这种不会剪辑的人来弄，以前想都不敢想。

不过多人互动还是有点拉胯，试了个"朋友聚会碰杯"的脚本，三个人站一块儿，举杯的动作要么慢半拍，要么手穿过杯子，跟提线木偶似的。

问了官方技术人员，说现在AI对多人肢体接触的理解还不到位，得等后续优化。

另一个大亮点是角色扮演，简单说，就是把现成视频里的人换成你想要的样子，动作表情还能跟着原视频走。

国内之前没模型能做到这个，试了下网上流传的马斯克采访视频，把他换成"女版马斯克"，发型、衣服都变了，但说话的语气、手势跟原视频几乎一样。

更有意思的是赫敏拥抱哈利·波特的场景，上传自己的照片当"分身"，模型真能把赫敏换成我。

不过问题来了，哈利·波特的脸偶尔会被误认成要替换的角色，突然变成我的脸，吓我一跳。

官方也承认，这种"张冠李戴"的穿帮避免不了，建议多生成几次挑最好的。

这要是真用在正经视频里，怕是得挨骂。

为啥能做到这些？技术人员说底层用了"多模态联合建模"。

听不懂没关系，简单说就是它把视频的时间变化，比如人脸上的表情、身体怎么动、从不同角度看过去的样子，和声音特点，像说话的调调、快慢，揉到一块儿学，这样画面和声音才能一块儿"搬家"，不容易错位。

但官方也"没有模型能完全不出错"，想用好还得靠用户自己多试几次。

光说不练假把式，咱们自己上手试试。

先从个人创作场景开始，毕竟这模型主打的就是"低门槛"。

第一个试的是校园表白场景，上传学校操场的照片，写了个简单脚本，男生递花、说"我喜欢你"、女生点头接受。

生成视频花了大概3分钟，画面清晰度还行，男生递花的动作、嘴型和配的声音能对上。

但表情跟真人比还是差点意思，像是戴着面具说话，有点假。

旁边看热闹的同学更夸张，站那儿一动不动，跟雕塑似的。

问了经常拍短视频的朋友，他说这"AI味"是通病，"现在的模型都这样，动作僵硬，情绪不到位，只能看个大概意思"。

不过对咱们这种不会拍视频的人来说，能生成个完整的小故事，已经算惊喜了。

再试试专业点的分镜脚本，按官方教程，输入"爱豆舞台唱歌（聚光灯，动感）-后台卸妆（暖光，疲惫）-骑摩托车离开（黄昏，洒脱）"，上传一张虚拟偶像的照片。

生成的视频里，舞台灯光闪烁时，爱豆的头发丝都能看清，卸妆时手擦脸的动作也自然，骑摩托车时风吹起衣服，还真有点电影里的感觉。

朋友看完说，"这要放在以前，得找摄影师拍素材，再用剪辑软件调半天，现在输段文字就有了，确实省事儿。

"不过他也挑出毛病，"摩托车场景里，爱豆的手没抓稳车把，看着像要掉下来，这种细节还是不行。"

专业影视辅助这块，官方给的科幻悬疑短片示例有点意思。

用户上传自己在家拍的视频，输入"未来城市废墟，主角紧张喘气，发现神秘符号"，模型直接给分镜，先远景拍废墟，再近景拍主角脸，然后特写符号，还配了紧张的背景音。

以前拍个短片得导演、画画的、剪片子的凑一块儿磨半天，现在输入脚本就能出个大概，确实省事儿。

影视公司的朋友看了直摇头，"这只能当草稿用，真要拍成片，还得人工改。

比如符号的位置不对，主角喘气的节奏跟画面不搭，这些都得调。

"但他也承认，"对小团队来说，能快速出个样片给客户看，已经很有用了。"

企业想用也方便，个人直接上官网，企业通过阿里云就能调用接口，过段时间千问APP里也会有。

万相家族现在啥都能干，写文字生成图、图片转视频、声音变视频，一套工具包全搞定。

电商卖家拍商品视频、老师做教学动画，估计能用上不少。

不过问题也得说清楚，虽然喊着"全球功能最全"，但单次只能生成15秒视频，跟国外能做60秒的比，还是短了点。

想拍个30秒的广告，得生成两段拼起来，中间容易断片。

官方说接下来会突破时长限制，希望快点吧。

版权问题更头疼，角色扮演功能换明星脸、换影视角色，这要是没授权，人家能告你不？官方没说怎么解决，只提示"用户自行承担风险"。

没授权就换人家脸，这事儿法律上能不能说通，真不好说。

之前就有AI换脸视频被告的例子，这坑得小心。

最后说句实在话，万相2.6确实让视频生成往前迈了一大步，分镜控制和角色扮演都是真本事。

但它说到底是个工具，帮人省时间、出创意，真要替代导演编剧，还差得远。

毕竟视频的灵魂是情感，AI现在顶多做到"像"，离"真"还有距离。

普通人想过把导演瘾，用它玩玩没问题，专业人士拿它当辅助工具，也挺实用。

但要是指望它一步登天，怕是要失望。

未来怎么样不好说，至少现在，它让"人人拍视频"这事儿，离我们近了点。

来源：姑苏九歌

标签：电影视频分镜脚本角色扮演

本文地址：https://news.axiwang.com/a/153937.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!