摘要:OpenAI的Sora模型开放ChatGPT付费订阅接入,GoogleDeepMind的Veo3直接实现音视频同步生成,RunwayGen-4让视频创作者直呼"饭碗不保"。
文 |洛神谷语
编辑 |洛神谷语
OpenAI的Sora模型开放ChatGPT付费订阅接入,GoogleDeepMind的Veo3直接实现音视频同步生成,RunwayGen-4让视频创作者直呼"饭碗不保"。
这波技术浪潮来得比预想中更猛,连Netflix都在《永恒族》里用上了AI视觉特效,影视圈的老炮儿们怕是最有体会,行业真的要变天了。
这些AI模型一个比一个能打,
OpenAI的Sora最开始放demo时,我还以为是特效公司做的假视频,结果人家真能让AI生成1分钟的连贯电影片段。
后来Google的Veo3更狠,不光画面逼真,连人物说话的口型都能跟音频对上,这技术放在三年前想都不敢想。
RunwayGen-4就更接地气,直接把专业级视频编辑功能塞进浏览器,让业余选手也能玩出好莱坞效果。
这些技术突破可不只是实验室里的玩意儿,实实在在地改变了整个创作圈的玩法。
以前拍个广告片得租设备、请团队、后期剪辑熬大夜,现在有个好点子,用AI模型跑几个小时就能出成片。
Netflix在《永恒族》里用AI做了个外星飞船的全景镜头,据说比传统CGI节省了40%的时间,这效率提升可不是闹着玩的。
不过话说回来,技术太好用也不是啥好事。
现在网上开始出现各种"AIslop",就是那种一眼假但又泛滥成灾的低质视频。
有朋友做短视频运营,说现在刷十条内容里三条是AI生成的,有的连人脸都糊成马赛克还敢发出来。
更麻烦的是虚假新闻视频,前阵子有人用AI伪造了段"名人访谈",差点引发股市波动,这信任危机可不是闹着玩的。
本来想详细说说这些模型有多牛,后来发现普通观众可能更关心"它们到底是怎么做到的"。
其实核心技术叫"潜在扩散Transformer",听着挺玄乎,说白了就是让AI先学怎么把清晰视频变成噪点,再反过来学怎么从噪点还原成视频。
就像咱们小时候玩拼图,先把图打乱,再慢慢拼回去,AI就是这么练出来的。
有意思的是,这些模型聪明就聪明在"潜在空间"这个操作。
直接处理视频像素太费电脑了,它们先把视频压缩成数学编码,就像把大图片转成表情包那么小,处理完了再解压还原。
这么一操作,计算效率提高了几十倍,普通电脑也能跑起来。
Google的工程师说,Veo3的潜在空间压缩技术,让手机都能实时生成短视频,这进步确实够大。
最让我佩服的是Transformer和扩散模型的结合,
OpenAI给Sora搞了个"时空立方体"技术,把视频切成一小块一小块的,让AI能同时处理时间和空间信息。
这就解决了老问题,以前AI生成的视频经常"跳帧",前一秒人还在左边,下一秒突然闪到右边。
现在有了Transformer这个"剪辑师",视频连贯度提高了不止一个档次。
聊到未来趋势,Google的Veo3确实带了个好头,音视频同步生成。
以前AI生成视频都是"默片",还得自己配声音。
现在Veo3能直接生成带环境音效的视频,连人物说话的呼吸声都能模拟。
Google管这叫"走出无声时代",这话说得没毛病,毕竟看视频没声音,总像少了点什么。
技术发展到这一步,不少人开始担心AI会抢了创作者的饭碗。
其实我倒觉得不用太焦虑,
就像当年Photoshop出来时,有人说摄影师要失业了,结果呢?反而催生了更多创意职业。
AI更像是个超级工具,能把重复劳动干掉,让人有更多精力搞创意。
Netflix的特效总监就说,AI把他们从繁琐的建模工作中解放出来,现在团队能把更多心思花在故事表达上。
当然问题也不能回避,
AI生成视频的能源消耗确实吓人,跑一个5分钟的4K视频,相当于普通家庭一周的用电量。
而且现在监管完全跟不上技术发展,虚假视频满天飞,连专业人士都难辨真假。
前几天还有导演吐槽,有人用AI模仿他的风格拍了部短片,连他自己都差点认错。
如此看来,2025年确实是AI视频生成技术的爆发年。
从Sora到Veo3,这些模型已经能生成接近专业级的视频内容。
但技术终究是把双刃剑,既能让创作门槛大幅降低,也可能带来内容泛滥和信任危机。
未来怎么平衡创新与风险,怎么制定行业标准,恐怕是所有从业者都得思考的问题。
我挺期待看到AI和人类创作者真正合作的样子,
就像当年画笔和颜料的发明一样,新技术总会带来新的艺术形式。
或许过不了几年,我们会看到完全由AI生成的电影拿奥斯卡,也可能会出现人机协作的全新创作模式。
不管怎样,这个时代的变化,咱们都是亲历者,想想还挺有意思的。
来源:律行僧