2024CTIS-文章详情页顶部

拉大中美AI差距的Sora,真能让好莱坞们失业吗?

钛度号
Sora在多个方面重新定义了AI视频生成模型的标准。

图片来源@视觉中国

图片来源@视觉中国

文 | 阿尔法公社,作者 | 许四清(阿尔法公社创始合伙人、CEO,连续创业者)

2月16日凌晨,OpenAI发布了自己的首个AI视频生成模型—Sora。这是一个历史性的里程碑,扩散模型结合OpenAI大获成功的transformer,在视觉领域实现了与大语言模型类似的突破。毫无疑问,视觉生成领域将有一次大的技术和商业革命。

本文将分别讨论:1. Sora是什么,怎么工作的,2. Sora引发的产业机会,3. 是不是大树之下寸草不生,这个领域的创业公司都要"挂"了。

01 Sora是什么,怎么工作的

Sora在多个方面重新定义了AI视频生成模型的标准:

  • a.它将视频时长从当前的5-15秒,直接提升到了1分钟,这个长度完全可以应对短视频的创作需求。从OpenAI发表的文章看,如果需要,超过1分钟毫无任何悬念。
  • b.它可以生成多个镜头,并且各个镜头具有角色和视觉风格的一致性。
  • c.不仅可以用文字prompt生成视频,还支持视频到视频的编辑,当然也可以生成高质量的图片,Sora甚至还可以拼接完全不同的视频,使之合二为一、前后连贯。
  • d.它是扩散模型, 更是扩散模+Transformer的视觉大模型,并且产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形。

它能生成更真实,一致性更强的多镜头长视频

OpenAI官方公布了数十个示例视频,充分展示了Sora模型的强大能力。

人物的瞳孔、睫毛、皮肤纹理,都逼真到看不出一丝破绽,真实性与以往的AI生成视频是史诗级的提升,AI视频与现实的差距,更难辨认。
1

无人机视角的东京街头景色,让Sora在复杂场景展现,人物动作自然度等方面的优势展露无遗。
1

在山道上穿梭的复古SUV,可以看到真实性很高。
1

Sora 可以在两个输入视频之间逐渐进行转场,在完全不同主题和场景构成的视频之间创建无缝过渡。

扩散模型+Transformer是如何工作的

OpenAI的团队从大语言模型的大规模训练中汲取了灵感,对应大语言模型的文本数据表示tokens,它们将视觉数据分割成数据块 ,首先将视频压缩到较低维的隐式特征,然后分解为时空数据块,这些数据块的作用就相当于token在大语言模型中的作用,用于训练Sora。

讲中文,就是Sora是把图片/视频都token化了。
1

Sora是一个基于扩散模型(Diffusion Model)的视频模型,但是它是一个扩散 Transformer模型,Transformer已经证明了把语言、视觉和图像生成一同实现的强大能力。

它基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过GPT的能力,使模型更加准确地遵循用户的文本指令生成视频。

所以,Sora是扩散模型+transformer的视觉大模型。
1

除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora的出现,进一步拉大了中美在AI方面的差距。

Sora仍有很大缺陷

但是,尽管Sora在技术和性能表现上有了巨大的提升,它仍有不少的局限性,在理解复杂场景的物理原理、因果关系、空间细节、时间推移上存在弱点。例如它不能很好地表现玻璃碎裂。
1

还有在吹蜡烛之前和吹蜡烛之后,火苗没有丝毫变化。
1

它也搞反了人在跑步机上跑步的方向。
1

OpenAI只是提供了生成的视频展示,随着Sora的发布,同时还引发了人们对滥用视频生成技术的担忧。为此,公司并未向外正式开放Sora的使用,而是精心挑选了一批"受信任"的专业人士做测试。

02 Sora引发的产业机会

首先,这是一个里程碑式的技术进步。

其次,在视频应用的场景中,能展示不等于能实用。如果说实现商业化需要做到100分(60分技术+40分场景),以往人工能做到90分,Sora的出现只解决了那60分,甚至到75分,还是有一段商业化的路径,需要靠人工或技术+商业创新完成。

第一,可控性。无论是商业场景还是创作场景,视频要按照人的意志或客观规律完成动作,这无疑是个巨大的挑战。

举个例子,有人提出物理模型,实际上目前的Sora能精美生成和炫技,但如果要能展示特定场景,比如一个皮球掉到地上反复弹起来,是要一个物理模型支撑的,目前diffusion+transformer还无法解决。

第二,prompt(提示词)的挑战本身仍然是个技术活儿,视觉领域,一般非专业人员很难用好视觉的生成,这既需要训练,更有待技术突破,让外行变内行。

所以,创作要面向实用场景,空间依旧很大。60分或75分之上,都是场景创新的机会。

场景创新的机会,属于懂场景、懂模型的创造者。

对于好莱坞,大家看过《繁花》就知道了。面对王家卫那样的大导演,科技创新的工具,目前最多可以提高实现指定场景的效率。宝总、玲子、爷叔短时间内是机器替代不了的。

我们看到的可能不是AI让电影人失业,而是AI让电影人们创造更好的作品。

03 国内外一批创新公司要挂了吗?

首先,赢家未必通吃。美国的商业生态有个显著特点,就是一流公司做平台,二流公司做全线产品,三流公司搞客户。

OpenAI的Sora,是一个伟大的工程进步,有一点像工业界走在了国家拨款支持科研的前面(整个LLM的出现就是这样,搞得学者们很被动),只是这个突破在工业界而不是学界最先实现,距离商业化还有一段路要走。

领先的公司要在关键领域确保自己的领导地位,突破技术,建立平台,也会做垂类应用,但更重视吸引广大开发者参与,而不是有点突破就摊大饼,把应用都做完。

所以,60分之上,仍有很大空间。这点,看看Salesforce上千家应用就清楚了。

其次,根据OpenAI的论文看,支持60秒视频的路径讲的很清楚,帮助很多创业公司节约了数以千万计的探索成本(向OpenAI致敬!),但同时也给创业者提供了很大的想象空间。

如果只要15秒,如果提高视频主体的高度可控性,如果需要控制主体在视频中的路径,会不会有其它的选择?Diffusion transformer是不是有更好的用法?还是那句话,模型能力决定了一个创业团队的高度,60分之上,模型支撑的应用见分晓。会模型、懂应用的创业公司大有机会。

在美国这个市场里,跟跑的大公司喜欢选择通过兼并收购拉近差距,小团队跑得快,起跑快并进大公司价值高。

国内的兼并收购不那么活跃,大厂喜欢下场什么都做。但是OpenAI跑得这么快,这么大的赛道上机会层出不穷,大厂难免没别的想法,万一别的大厂抢了先呢。

还是那句话,这是一个让狮子和土狼一起奔向光明的大赛场。

当然,视频大模型的背后是训练和推理算力的超线性增长,楚河汉界的两边,需求量分别再次加大,算力、基础设施、工具层需求加大,分别给中美创业者提供了更多新机会。

(本文首发钛媒体App)

参考文献:

  1. OpenAI. Video generation models as world simulators. https://openai.com/research/video-generation-models-as-world-simulators
  2. MIT Technology review. OpenAI teases an amazing new generative video model called Sora. https://www.technologyreview.com/2024/02/15/1088401/openai-amazing-new-generative-ai-video-model-sora/
  3. 本文部分视频和动图来自网络。

许四清个人简介
阿尔法公社 创始合伙人、CEO

阿尔法公社 创始合伙人、CEO

许四清,阿尔法公社创始合伙人、CEO,连续创业者,曾三次创业,2010年作为COO成功带领创业公司在美国NASDAQ上市。曾担任创新工场投资合伙人、奇虎360首席营销官,后加入中经合任董事总经理负责中国的投资和管理工作,2015年创立天使投资机构阿尔法公社。

许四清拥有20年以上IT、互联网及电信行业的工作经验, 曾开创微软公司华南区业务并就任第一任总经理,担任中国网络通信有限公司数据业务总经理、艺龙旅行网首席市场营销官等职务。

许四清获得2020、2022、2023年“福布斯中国最佳创投人top100”称号 ,并获得36氪 “2023最受创业者欢迎投资人”等多个奖项。许四清毕业于中国科学技术大学和中国科学院,分别获得学士和硕士学位,主修近代力学和材料物理。

本文系作者 阿尔法公社 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

2024-04-21 23:09

万润股份:目前已开发出PEEK实验室样品

2024-04-21 23:09

理想汽车:全新理想L6 72小时累计定单突破10,000台

2024-04-21 22:52

民调显示岸田内阁支持率连续6个月处于“危险水域”

2024-04-21 22:35

上交所对重庆燃气下发监管工作函

2024-04-21 22:16

免签政策带火入境游,成都广西旅客数量攀升

2024-04-21 21:59

下周(4月22日-28日)市场大事预告

2024-04-21 21:53

香港水域出现水龙卷,专家指未来几天或有大雨

2024-04-21 21:53

300家机构调研医美龙头华东医药

2024-04-21 21:42

北京市副市长高朋接受中央纪委国家监委审查调查

2024-04-21 21:39

葛兰被抓、案子在审?中欧基金:假的

2024-04-21 21:34

汇源通信:股东蒋国祥拟减持不超0.52%公司股份

2024-04-21 21:33

天孚通信:2023年拟10转4派10元,2024年中期拟分红总额不超当期净利

2024-04-21 21:27

丰茂股份:2023年净利同比增35.14%,拟10派4元

2024-04-21 21:24

当前已有超40座城市阶段性取消首套房贷款利率下限

2024-04-21 21:19

北京地铁17号线工人体育场站今日21:30起临时封闭

2024-04-21 20:58

2024中国农业展望大会在京召开

2024-04-21 20:36

英特尔发布大型神经拟态系统

2024-04-21 20:35

4月21日新闻联播速览19条

2024-04-21 20:30

自然资源部:扎实推进国债安排的地质灾害防治项目、海洋灾害综合防治体系建设工程

2024-04-21 19:57

宗申动力:重庆宗申航空发动机制造股份有限公司主要为通航飞机和无人航空飞行器提供动力系统解决方案

扫描下载App