摘要:本届论道以“新局新视 智合聚变”为主题,共启视听新局,共创智屏新篇。在23日上午主论坛上,上海麦迪美仕网络科技公司首席营运官COO张培骜做了主题为《AI赋能流媒体全球化——无延时电影级字幕与超经济传输方案》的演讲。
2025年5月22日-23日,由流媒体网主办的「中原论道暨第29届智能视听与科技创新产业论坛」在河南开封隆重举行。
本届论道以“新局新视 智合聚变”为主题,共启视听新局,共创智屏新篇。在23日上午主论坛上,上海麦迪美仕网络科技公司首席营运官COO张培骜做了主题为《AI赋能流媒体全球化——无延时电影级字幕与超经济传输方案》的演讲。
以下为演讲全文:
各位领导,各位来宾,大家上午好!我是来自上海麦迪美仕的张培骜,非常荣幸能够在此和各位交流和分享AI经济下的流媒体产业的发展机会,我今天演讲的主题是“AI赋能流媒体全球化”。
从TikTok Refugees,到小红书的全球化机遇
2025年1月14日,发生了今天中国互联网非常标志性的一个事件,就是被网民戏称“中美网民网上建交”的“TikKok难民”涌入小红书事件,而2025年也因此被称为“中美网民网上建交”的“元年”。
中美两国在1979建立外交关系后,两国网民在如今两国外交关系如此紧张的背景下,竟然能在网上完成如此规模大的民间交流,其意义影响深远。之后的事情大家也都知道了,中美网友的网上对账、亲爱的李华等网络事件,带动着中国文化一波又一波的强势输出。
而对于小红书而言,这突如其来的幸福,或者说是泼天的富贵,从我的角度来看其实它是没有做好充分准备的。当然,小红书还是迅速顺应民意,开发了相应的产品功能,用短短的几天开发了评论区翻译功能,让中国网民和全球用户能够冲破语言限制,进行自由交流。
但从另外的角度看,为什么说小红书没有做好国际化的准备呢?我们会发现,YouTube和TikKok很早就上线了视频和评论区的翻译功能,这正是其为全球化营运必备的服务。小红书事件留给我们一个思考,我们无论是主动还是被动的出海,或者说进行全球化时,应该怎么准备呢?
挑战一:直播场景的实时化需求
可能有多少人都了解,不久前YouTube大V甲亢哥来华旅游直播的新闻,甲亢哥在华期间开启的不间断直播,带来了巨大流量和传播效应,同时也将一个真实的中国通过直播展现给了全世界,其中单场直播观看人数最高达771万。
这也让我们看到,直播内容比录播在很多场景下更有传播价值。当然,这带来的内容制作要求和网络传输成本,也都是巨大的。
挑战二:跨境传播的语言壁垒
我们说“文化交流的基础,从语言障碍的消除开始”, 但绝大多数的内容创作者或者营运方受限于语言的壁垒,限制了其产品的传播。全世界有5000多种语言,内容创造者和营运者一般无法真正具备内容传播全球化的必要条件——语言。
就国内而言,也只有像CGTN 这样的国家队和少数媒体,才可能不计成本地推行多国语言直播内容,扛起为中国向世界发声的大旗。而其他绝大多数媒体亦或是民间力量,都很难轻易突破语言壁垒。
虽然AI翻译技术在快速发展,但在流媒体领域,由于当下AI翻译的主要应用还是在视频制作环节,而要实现无延时、高精准的直播流媒体内容的翻译,一直存在着一定的技术限制,原有技术没有能够很好地实现高品质的直播同步翻译字幕服务。
我们现在看到的对于直播流的翻译字幕,更多是利用外挂技术的方式,其结果就是存在严重的时延问题,往往翻译字幕比直播视频流时延几秒钟,使得观众对于内容理解和音视频画面出现严重的不一致性,影响观看体验和效果,这也影响了我们直播内容走出国门向世界讲述中国故事的机会。
AI x流媒体技术的创新融合
随着2025年初DeepSeek拉开通用大模型开源的序幕,AI行业应用在全球迅猛发展,人工智能的更迭速度超出所有人的想象。
我个人认为,流媒体产业的各个领域通过与AI技术的创新性应用结合,就是破局中国流媒体全球化的一把“万能钥匙”。
如今,AI技术可以说已经全面渗透到流媒体行业的各个领域,从内容创作到视频制作,从音视频剪辑到文生视频,从网络传播到个性化推荐,从语言翻译到数字人口播,从网络传输到视频切片等,可以说AI技术已经无处不在,影响着行业的每家企业、每个从业者。
畅联网云技术矩阵助力全球化
借助此次“中原论道”大会,我有幸向各位介绍畅联网云技术矩阵如何助力企业破局中国流媒体全球化的困境。
畅联网云作为一家全球领先的一站式流媒体解决方案提供商,企业总部位于中国上海,我们依托于自主研发的MMCTS私有协议,为流媒体营运商打造高效、安全、经济的音视频直播服务系统。
公司自主研发的MMCTS私有传输协议,通过多重加密与分片传输技术实现音视频数据毫秒级响应,独创的智能对等网络架构可降低90%以上的带宽营运成本,支持百万级用户仅需100Mbps带宽稳定运行。
核心产品矩阵包含——
传输层:是基于MMCTS私有协议打造的音视频流媒体网络传输技术服务。
基础应用服务:包括IPTV前后端解决方案和具备防盗链、防篡改、抗攻击能力的全链路管理中控平台。
AI创新层:包括支持AI零延时多语种同步字幕的"巴别塔"系统、跨终端双向投屏的StreamCast无线投屏套件。
我们为全球客户提供从协议层到应用层的全栈技术支撑,助力企业以极简运维实现流媒体业务的全球化安全部署与高效运营,实现商业价值最大化。
畅联网云CTS流媒体网络传输技术
具体介绍一下MMCTS(MediaMesh Collaborative Transport Streaming Protocol)协议,它是由上海麦迪美仕网络科技有限公司主研发的一种网络私有传输协议,用于高效传输音视频数据,采用分片传输和流式传输方式,高效处理大容量音视频数据,确保传输的流畅性和稳定性,通过私有协议下的多重加密技术,对信令数据进行加密,确保信令的完整性和保密性。可以广泛应用于IPTV系统、机顶盒或智能电视、智能手机等终端,高效处理大容量音视频数据,确保传输的流畅性和稳定性。
畅联网云CTS流媒体网络传输技术可应用于高效安全的跨网跨地域全球化直播传输分发,为企业实现低成本高效的音视频发布传播,提供领先的技术和优质的服务。
CTS传输网络的经济价值
CTS网络传输通过自主研发的音视频传输技术,让所有观看者之间高效地共享数据链。在优良的跨地域、跨网络传输性能基础上,使服务点的带宽需求降到最低,从而大幅度降低项目的网络运营成本和运维成本,使用畅联网云的CTS解决方案,可降低90%以上的网络营运成本。
从数据上来看,单用户带宽消耗仅为传统方案1/100,百万用户级项目年节省千万级别成本(按1Mbps码率计算)。
SubBabel-巴别塔
接下来我向各位介绍的是我们AI创新应用的一个服务产品,多国语言直播字幕服务——巴别塔。介绍产品之前,我先介绍一下“巴别塔”这个产品名字的由来。
巴别塔出自《圣经·旧约》中的一个故事,故事讲述的是一群只说一种语言的人在“大洪水”之后,从东方来到了美索不达米亚平原,也就是巴比伦,并决定在这修建一座城市和一座能够“通天”的高塔。
在那里,人们想方设法地烧砖,好让他们能够造出一座城和一座高耸入云的塔来传播自己的名声,以免他们分散到世界各地。
上帝来到人间后,看到了这座城和这座塔,说一群只说一种语言的人,以后便没有他们做不成的事了。
于是,上帝将他们的语言打乱,这样他们就不能听懂对方说什么了,还把他们分散到了世界各地,停止了修建。
这座城市就被称为“巴别城”,而这座塔就被称为巴别塔。巴别塔的传说故事说的就是人类会产生不同语言缘由。
我们希望这款产品能够打破音视频流媒体的传播语言壁垒,建立跨地域的文化传播途径,从此让文化传播不受语言限制,建立流媒体产业的“巴别塔”。
故此,我们把这款AI直播同步字幕技术取名为“巴别塔”。英文我们在Bebal之间加上了Sub三个字幕,就是Subtitle的缩写。
全球领先的AI直播同步字幕技术
巴别塔AI直播同步字幕技术的第一大特点,是可实现多情景模式下的智能语言翻译,而且涵盖多个专业领域,语义准确率达到98%以上,可以智能判断出实时翻译的流媒体内容场景和语境,并联系上下文实现语义精准翻译、AI动态语义补偿,在新闻报道、体育直播、教育培训、专业演讲等各类场景均能轻松应对。
目前我们看到CGTN一共有五种语言(英语、西语、法语、俄语、阿拉伯语)的节目频道,CNN在全球有包括8种语言(英语、西语、日语、阿拉伯语、葡萄牙语、印度尼西亚语、捷克语、阿尔巴尼亚语)的频道。传统模式下,多语言直播频道的营运成本巨大,这也是很多媒体无法轻易尝试国际化的重要原因之一。
如今,通过巴别塔的AI直播字幕服务,则将轻松实现内容国际化分发,甚至非主流的语言也同样轻松驾驭,从此告别为内容语言适配的烦恼。
第二个特点,是无延时。如果大家体验过外挂字幕服务产品,会发现即便抛开翻译的精准度,由于AI处理效能造成的字幕延时情况,都是不可避免的,但这也是影响字幕服务质量最为重要的原因之一。
据统计,字幕延时超过1.2秒,用户体验度下降45%,延时超过2秒,用户体验下降82%。由于音视频流和字幕功能不匹配造成的用户体流失,成为翻译质量之外的第二大流失因素。而使用MediaMesh AI直播技术,则将会全面解决刚才提到的问题。
归根到底,是因为我们的技术具备从流媒体传输到应用层的全栈技术解决能力。
畅联网云拥有研发高效传输私有协议的能力和背景,将传输层的技术研发经验和技术积累充分发挥到AI应用层的研发中,发挥技术底座优势,首次实现内嵌式直播AI翻译字幕,我们以流媒体传输技术研发过程中积累的“智能切片技术”&“帧级同步引擎技术”为基础,打造了“字幕同步引擎”和“流媒体零损耗架构”,实现从视频源输入、提取、辨识、AI多国翻译、校时、帧数同步、封包、输出整个流程控制在200ms以内,再叠加AI动态语境补偿技术,打造了全球领先的零延时、智能化的同步直播多国语言字幕服务。
全球化商业应用场景
我们希望畅联网云的CTS低成本传输技术,叠加多国语言同步字幕的服务,将有机会推动视频直播、跨境电商、在线教育等领域的飞速发展,一切以流媒体形式传播的文化在AI模式下降本增效,将不再受到任何语言和地域的限制,任何人都可以无障碍地向全世界任何群体通过流媒体形式来传播自己的文化和价值。
语言的柏林墙已经推到,人类的数字巴别塔将会在AI技术的赋能下,直耸人天!
最后,我也想分享两个思考:当语言的屏障消失,您会打开多少新的市场?当成本的枷锁断裂,商业模式又会有多大的想象?
欢迎大家和我交流,谢谢!
来源:流媒体网