蓝鲸新闻7月6日讯(记者 汤诗韵)今年2月,OpenAI的首款文生视频模型Sora横空出世。样片里大胆的一镜到底和惊人的人物场景一致性轰动了整个行业,视频生成随之成为今年最热的技术与赛道之一。在国内,AI视频领域也将迎来寒武纪大爆发。

AI视频生成大爆发, 大量创作者跟风整活

视频生成技术及应用是今年世界人工智能大会(WAIC)最受业内外关注的话题之一。昨日举行的论坛上,有嘉宾提及近日全网创作者运用AI视频整活的风潮。

你常常可以刷到甄嬛流泪躺在床上生吞腊肉,刘华强和卖瓜摊贩化干戈为拥抱,梗图中的地铁老人一口吞下手机。这些刻意搞怪的创作都是依靠各类AI视频生成模型实现的。

刚刚过去的6月,一众AI视频生成模型密集涌现。快手可灵、Luma AI以及Runway的Gen-3 Alpha等爆款模型接连发布,引发现象级围观。

其中快手的AI视频生成模型可灵被称作中国版Sora。该模型视频生成时长直接赶超Sora达到120秒,目前已开放图生视频、视频续写、镜头控制等功能。

可灵生成的兔子看报纸/截图

在内测用户上传的生成视频中,可灵的表现令人惊喜,它能够生成大幅度的合理运动,并模拟物理世界特性等。猎豹移动董事长兼CEO傅盛公开测评称,“我认为这个产品今天在我们能使用的范畴内,就是全世界第一,这也是国产人工智能领域的又一项重大突破”。

今年以前,文生视频是多模态AIGC的圣杯,优化迭代速度较慢。而仅仅过去一年,AI生成的吃面条类视频已从鬼畜素材级别变得流畅自然。

视频AI生成渐成热门赛道。美图公司集团高级副总裁陈剑毅在WAIC论坛上表示,让照片动起来的玩法,在不远的将来大概半年到一年内肯定会成为所有社交平台的标配能力,和现在所有平台都有滤镜、美颜能力是一样的。

AI视频发展到什么程度了?宣传很好看,实际待考验

现阶段的视频生成模型并不完美,常见缺陷大多表现在可控性差上。比如人物的形象及视觉风格、角色场景在生成输出时不能保持稳定一致。运动轨迹、光影效果、口语自然度、音效可控性等都有待提升。

上海交通大学电子系教授倪冰冰在昨日的论坛中指出,我们现在生成类算法包括视频、图像、三维的东西,会遇到很多结构性的问题和细节性问题。比如通常会多生长出一样东西或者少一样东西,或者手穿模到人身体里,有时候衣服上的LOGO变得很模糊了。

其直言,AI文生视频技术可以有效提高生产力,但若和成熟的影视制作工业相比,算是以卵击石。

一些大模型生成的体操表演视频截图

陈剑毅同样预测道,当下的AI视频生成技术还在早期阶段,类似电影行业1分钟黑白电影的起点。该技术会经历快速演变,大概3—5年就能走完电影技术百年发展史。目前来看,文生视频有望在网文小说和教学内容领域率先落地。

井英科技CEO朱江透露,他们之前花三年时间自主研发了一个视频生成模型,落地场景就是用AI生成短剧视频。日前,井英科技的AI短剧应用Reel.AI此前已在海外市场发布,其中部分短剧的主角是AI生成和配音的白人演员。此前蓝鲸新闻曾报道,海外短剧制作成本较国内翻倍,单剧或需要15万美元,AI生成或是控制成本的方式之一。

关于该项技术的应用,还有一个更现实的难题。AI生成内容的关键吸引力在于新奇,那么正如陈剑毅所说,“AI类视频很容易看腻,短期内不太存在新的平台级产品的机会。”

因此AI生成视频终究是一种工具,内容才是竞争的根本。

盛趣游戏技术中心AI负责人李锋举例称,文生图、文生视频等技术可能会提升游戏立项和开发的效率,比如有助于游戏概念表述,方便策划、美术和程序之间交流理解。但另一方面,玩家口味多变,AI会生成哪些创意、如何及时修改创意才是开发者更看重的部分。

大厂扎堆入局,但商业化问题依旧难解

Sora引爆赛道后,国内互联网大厂加速布局视频生成领域。

今年2月,抖音原CEO张楠转任剪映负责人,外界认为这场调任体现了字节跳动在文生视频大模型上的期望。3个月后,字节旗下AI创作工具即梦(原名Dreamina)上线AI作图和视频生成功能。伴随快手可灵上线,抖快两家已在AI领域正面对垒。此外,阿里巴巴达摩院、百度、腾讯、美图等大厂均已加入文生视频混战。

在今年的人工智能大会上,如何商业化是频频被讨论的话题。业内认为AI视频模型商业化至少需要解决两个问题,一是前文曾提及的技术层面,其二则是高昂的成本。

据垂媒量子位援引专家预估,OpenAI推出的Sora在训练环节大约需要在4200-10500张NVIDIA H100上训练1个月,并且当模型生成到推理环节以后,计算成本还将迅速超过训练环节。因此其显然不太可能依靠文生图产品同等水平的会员费覆盖成本。

倪冰冰教授认为:生成式人工智能目前阶段性的成功是以算力与数据的过度消耗为代价的,因此未来我们需要有一些新的架构、新的计算方式或者新的底层技术来支撑更加优质高效的媒体新质生产力。

关于未来,可能没人说得准。井英科技CEO朱江表示,我们把这一代的AI生成式时代类比成寒武纪生命大爆发的时候。在当时,其实很难预测哪一个物种未来会生存下去。比如哪一类生物突然进化出了眼睛,可能取得了阶段性优势。

“但其中有两点比较确定。”朱江总结称:第一,在新的生成式时代保持Tire1技术的水准和理解;第二,入局很重要,关键要关注机会在哪里、客户需求是什么,想赚钱首先得留在牌桌上。