打造中国版Sora不易,推动视频大模型落地更现实?

关注

春节期间横空出世的Sora,引爆了人们关于AGI(通用型人工智能)的大讨论。跟一年前出道即破圈的ChatGPT不同,人们对Sora的态度除了盛赞,似乎还有恐惧。Sora强大的视频生成能力表明,相比文生文而言,文生视频具备更广阔的的应用场景,将给视频产业链带来变革。


Sora推出后的第一个工作日,VC界空前热情。一位投资领域的博主称,“一天内已经有三个项目方找过来说要做中国版Sora,但听起来,心态都是看看能不能骗点钱”。今天加入战队,提出要做“中国版Sora”显然不靠谱,真正可以吃到“Sora红利”的或许是视频产业链上下游,以及早已出发的视频大模型玩家。



Sora浪潮澎湃,视频大模型百花齐放


在AGI视频生成领域,Sora并非孤军奋战。1 月 2 日,以 文生图工具闻名的 Midjourney 宣布在未来几个月加快训练文生视频模型;1 月 23 日,谷歌推出了文生视频模型 Lumiere;Runway 的文生视频模型 Gen-2 在 2023 年年末完成了一 次重要更新,大幅度提升视频生成质量。


2024年,视频大模型赛道无疑会更加热闹,2023年ChatGPT掀起“的百模大战”主战场或将来到视频生成领域。在美国视频大模型风起云涌时,中国似乎也并未缺席。


技术的颠覆从不遵循论资排辈的逻辑,“颠覆者”随时可能出现。


其中一个视频AIGC的重磅玩家是新壹科技,前身是曾打造秒拍、小咖秀和一直播的国民级短视频直播应用的一下科技。2023年7月,新壹科技推出了国内首款聚焦视频领域的大模型,公开信息显示,其基于视频大模型的平台及服务,已在保险金融、数字政务、传媒营销等多个垂直场景实现商业化落地,服务B端和C端用户。


值得关注的是其旗下定位于智能内容辅助创作平台的一帧秒创,致力于为用户提供全流程AI生成视频服务,通过对文案素材、AI语音、字幕等进行智能分析解构,助力创作者快速成片,零门槛产出视频,目前已拥有超300万用户,每天产出数十万分钟AI视频。


随着Runway、Sora在内的产品给AI生成视频素材带来质和量的提升,这类定位于整合前沿AIGC技术,提供“傻瓜式”解决方案的平台,或许更符合国情选择。


Sora并非鲨鱼,而是海洋,Sora掀起的AGI浪潮,也将催生大量的巨头公司、创新应用以及产业变革。


据不完全统计显示, 2023 年全球诞生的视频模型已达数十个,平均视频生成能力为3-4 秒。Sora问世后,AI生成单个视频的最长时长可达一分钟。



“从公开演示Demo来看,Sora的整体生成质量高度逼真,物理运动轨迹也已十分自然,整体效果超出了市场同类产品。不过现在视频AI生成仍是素材级别,不能生成完整作品。而通常情况下,一个完整的视频作品需要几个~几十个素材构成;借助一帧秒创,用户可通过已有素材、AI素材的组合完成作品级的视频呈现,某种程度上,素材生成技术的进步对行业是极大的利好,Sora生成的素材同样可以为秒创所用。”新壹科技CEO雷涛的展望十分乐观。


Sora拓宽道路,哪些视频业态率先受益?


最先受益于Sora浪潮的无疑会是移动视频领域。Sora前的Runway等视频大模型只能生成几秒的视频, Sora最多可连续生成 60 秒高清视频,这正是互联网短视频的主流时长。


随着Sora彻底开放,用户短视频创作成本更低、门槛更低、效率更高,短视频将进一步迎来质和量的井喷潮。作为短视频商业化两架马车的广告与短剧,均将受益于Sora,自动生成视频与程序化AI广告结合,将进一步提高营销效率,AIGC短视频质量提升也会对短剧产生积极影响。


影视传媒行业同样会迎来“Sora红利”。虽然Sora当前只能生成“素材”级短视频,但假以时日,随着生成内容时长与水准不断提升,“丢给Sora一部小说就能输出电视剧/电影”也可能并非痴人说梦;如果搭载ChatGPT写的小说,Sora或许能成就新一代智能“梦工厂”。


Sora还将在很多行业扮演魔术师的角色。



在广告营销行业,TVC、宣传片制作成本高、流程长,基于Sora的生成能力,广告营销视频的制作效率将大幅提高,成本将大幅降低,特别是一些低创造性、重复性较高的营销视频。


在新闻传媒行业,Sora更是降本增效的利器,甚至能在许多领域直接输出可发布的视频,比如科技类媒体的科普视频、生活类媒体的小贴士视频、商业类媒体的解读类视频……“剪刀手”类搬运剪辑、素材整合与资料归纳类视频基本都将由Sora主宰。


截至目前,芒果超媒已表态将探索文生视频等AI技术在传媒领域的落地。包括人民日报、新浪财经等媒体也已与新壹科技开展合作,通过视频生成平台服务为新闻采集、制作、传播高效赋能。


在游戏行业,Sora可与游戏场景高度适配生成更个性化的地图、画面甚至角色,《蛋仔派对》爆红离不开UGC地图模式,利用AIGC增加可玩性已是游戏产业的大势所趋。


在教育行业Sora可被用于创建生动有趣的教育视频,强化互动提升效率。


在医疗行业Sora可智能生成视频来实现医患沟通,比如向医美患者传递术后效果。


在健身行业Sora可智能生成自然视频应用到跑步机等设备提升用户体验。


……


当前,互联网大约有80%的流量是视频贡献的,但只有20%的内容是视频化的。Sora爆发后,随着更多视频大模型以及视频大模型驱动的工具应用出现,视频内容将出现井喷潮,互联网也将进一步被视频化。


与其做中国版Sora,不如发挥落地优势


对于中国视频大模型玩家来说,最现实的机会或许不是打造“中国版Sora”,而是如何有效整合尖端技术,孵化出中国式爆款应用。


跟一般技术不同,大模型的强弱很大程度取决于“出发时间”。大模型一直在被填喂海量数据训练,且在这一过程消耗不菲的算力与能源,进而具备更强的智能水平,后来者很难单纯地靠大手笔投资“大力出奇迹”填平时间差。


在Sora横空出世时,中国视频大模型的佼佼者,一定是早已蓄势多年的玩家。


在国内推出首个视频大模型的新壹科技也并非天降黑马。一下科技旗下的秒拍与一直播当年曾分别是渗透率第一的国民级短视频与直播产品。在更早前,韩坤创办的酷六网也是国内首家在纳斯达克上市的视频网站。这些年来,韩坤和他的团队一直在视频赛道耕耘潜伏,2018年就开始探索AI技术与视频的结合。


在一下科技与抖音、快手的竞争中落败后接受现实,其很早就All In AIGC视频业务,着手推进视频大模型释放AIGC视频生产力。基于早期海量音视频数据和视频业务经验的积累,以及AI视频的多年探索,新壹科技成了视频大模型赛道一个不容忽视的玩家。



在ChatGPT面世后,中国市场一夜之间出现了许多“类ChatGPT”应用,百模大战如火如荼,不过视频大模型研发显然更具门槛:数据质量和场景落地都是关键元素。


数据的量与质直接左右着视频大模型的效果。Sora的核心基石是“理解真实世界”,要做到这一点必须要对大量的视觉内容进行学习。Sora对比其早前的PixelDance、Stable Video Diffusion等雏形期的视频大模型有显著提升,数据量不容忽视;国内,新壹科技的视频大模型表现相对成熟,也离不开秒拍、小咖秀、一直播等业务多年来积攒的视频内容底子。


场景落地或许中国视频大模型厂商的机遇突破口。一直以来,本土科技企业都很接地气,善于洞察用户需求进行产品落地,在互联网应用层出现小程序、移动支付、共享单车、共享充电宝、短视频、直播带货等创新应用,都足以说明这一点。


正如新壹科技CEO雷涛公开采访时所言,Sora的诞生无疑会改变AI视频生成市场格局。“就国内而言,要看哪些企业能结合、利用新技术,完善符合国情的产品,比如提供定制化的视频生成服务、跨业态合作等。像企业营销视频、企业宣传片、教育培训、微短剧,甚至个人娱乐领域,用户都可以根据自身需求,通过文本描述进行视频内容个人定制。”


或许,在Sora的素材级视频生成大模型外,行业还需要一个强大的视频内容辅助创作工具,将优质的AI素材和现实素材进行整合,为创作者提供整体解决方案,这可能是类似新壹科技团队努力的方向。



另一个角度,Sora模型底层设计是英文逻辑,这意味着在其他语种上存在较多本地化机会。回想此前,英文版文生图工具在面对“胸有成竹”“汗牛充栋”“熊熊烈火”等成语时全都闹了笑话,视频生成同样面临这样的挑战。


再比如英文语境逻辑训练下,大模型往往默认男人、女人、小孩都是白人,生成内容很少会有黄种人。类似这样的差异意味着视频大模型需要被“汉化”,中国大模型开发者更理解本土文化,大模型生成的内容也更能满足本土用户需求。


整体而言,相较于打造“中国版Sora”,将Sora背后的AGI能力完美延伸,打造to C/to B的创新应用,或将是中国科技公司更现实的机会。


看得更远一些,视频产业只是Sora改变的冰山一角。Sora背后的AGI技术以及“理解与模拟现实世界”的能力,可能催生AI手机、AI汽车、AI XR、AI机器人等新兴产业,在重构科技产业秩序的进程中,赋予人类全新的力量,而这显然是比“Sora是否取代影像工作者”更值得关注的事情。

反馈
联系我们
推荐订阅