文生视频模型Sora对未来的影响

积加ERP

OpenAI近日发布首款文生视频模型——Sora模型,完美继承DALL·E 3的画质和遵循指令能力其支持用户输入文本描述,生成一段长达1分钟的高清流畅视频。 这是一个很有创意的实验…

OpenAI近日发布首款文生视频模型——Sora模型,完美继承DALL·E 3的画质和遵循指令能力其支持用户输入文本描述,生成一段长达1分钟的高清流畅视频。

这是一个很有创意的实验室作品,与阿凡达等影视片后期制作相比,Sora借助于大模型自然语言理解技术,通过文本提示创建,跳过一部分人工的编辑,未来更有利于从文字剧本的想法和故事直接生成影视制作。


这个技术本身,其实就是一个集成创新,从上世纪90年代的虚拟现实到基于真实场景的动漫、影视后期制作,演员在各类真实场景或者虚拟场景的融入,Sora的一路走来是一个循序渐进的过程,本质上还没有颠覆性理论和革命性技术。

Sora目前是一个成功的概念性的验证性实验,相对于之前通用大模型和大视频模型(Large Video model),未来的实用性和应用场景更加聚焦,不仅仅是各类影视制作,各类会议和单位宣传片的制作,以及直播带货等有很多应用前景。


但是,Sora目前还是一个实验室的作品,未来更多的考验,不仅仅是音视频素材库是否够用,比如能否提供咬了一口的苹果。更多问题在其正式进入商业应用后,面临着音视频素材库的知识产权、数据交易等实际问题,目前的音视频素材,通过计算机图形学自动生成的也有一些,但是,从Sora的研究目标看,城市、乡村的实际背景场景,还是离不开真实的人工拍摄的音视频素材,无论是直接采用,还是在已有人工拍摄的音视频基础上加工,进入商业化后,知识产权、数据交易等实际问题无法避免。
这些是互联网、人工智能企业的工程师比较容易忽视的。

此外,Sora如果推出下一个商用化版本,根据应用场景需求,比如直播带货,以现有的技术AI虚拟人可以轻松融入,因此,视频的真伪和内容安全问题也是商业化过程需要考虑的。

“Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”

360创始人周鸿祎发布微博提到自己对Sora的看法,周鸿祎认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。

周鸿祎认为,科技竞争最终比拼的是让人才密度和深厚积累,“很多人说Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”

此外,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。周鸿祎表示,很多人担心Sora对影视工业的打击,在他看来,机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。一个视频或者电影是由无数个60秒组成的。今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具。

谈到Sora最大的优势,周鸿祎表示,以往文生视频软件都是在2D平面上对图形元素进行操作,可以把视频看成是多个真实图片的组合,并没有真正掌握这个世界的知识。但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况,“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”

周鸿祎提到,有了大模型技术作为基础,再加上人类知识的引导,可以创造各个领域的超级工具,例如在生物医学、蛋白质、基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。

“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。”周鸿祎感慨。

他还提到,尽管国内大模型发展水平表面看已经接近GPT-3.5,但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器,无论是GPT-5,还是机器自我学习自动产生内容,“奥特曼(OpenAI CEO)是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”

为您推荐

联系我们

联系我们

0755-25700009

在线咨询: QQ交谈

邮箱: 917712811@qq.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部