2024CTIS-文章详情页顶部

语言就是现实,20个预言剖析OpenAI的Sora

钛度号
作为普通人,我们能做些什么?

图片来源@视觉中国

图片来源@视觉中国

文 | 娱乐资本论,作者 | 付梦珍

凌晨,OpenAI 介绍了其在 AI 视频领域的新技术进展:我们打造了一种名为Sora的文本到视频模型。Sora能够生成长达一分钟的视频,同时保持视觉质量和对用户提示的遵循。

简单来说,Sora可以根据简单的提示和静态图像,生成包含多个角色的视频画面。此外,Sora还可以自己“脑补”、“扩展”现有视频片段。

用词语总结Sora,那就是:“60s超长长度”“单视频多角度镜头”“充满情感的角色”“高度拟真的细节”和“世界模型”。

这项技术一经发布,立刻引爆大众,令无数人发出感叹:

“OpenAI第三个大招——向所有影视公司抛出二向箔”

“彻底端掉视频行业饭碗!OpenAI首个AI视频模型炸裂登场”

“60秒一镜到底惊人,世界模型真来了?”

“太炸了!OpenAI深夜发布,文字直接生成视频!网友:我要失业了”

“OpenAI再次举起屠刀,Sora血洗行业”

OpenAI 在官方网站特别指出,所有的视频都是由 Sora 直接生成的,没有做过后期调整。

 OpenAI指出,Sora与 GPT 模型类似,也使用了diffusion transformer架构,是一种扩散型变换器模型。OpenAI将视频和图像的数据表示为patch,类似GPT中的token。技术上,Sora生成的视频中,主体可以在三维视频中进行连续运动。

当无数人都在等待OpenAI 公测的时候,Sam Altman已经自己玩嗨了。

他发推疯狂安利的同时,还亲自下场为网友生成视频:你们随意来prompt,我一一输出。

这时,Sam Altman的身份是剪辑师?摄影师?演员?还是导演?

去年,娱乐资本论在采访AI创业者时,有人提出AI视频将在今年迎来大爆发,前途不可限量。

没想到,时间来得如此之快。

那么,Sora将会为世界带来哪些改变?

  • 01 一段文字就能生成短片,视频内容将会大规模爆发,原有的岗位结构将会发生变化,例如摄影师、剪辑将不再存在,编剧可以直接生成电影;
  • 02 讲故事的能力会越来越重要;
  • 03 如果你不会讲故事,那么从古书、小说中爬取故事的能力也会很重要,人类历史上的大量文字内容,将会以视频内容的形式再现;
  • 04 Sora生成的内容,将会最先在短视频领域爆火。因为这个行业对技术的要求低,且Sora可以相对低成本地产出大量具备猎奇性的内容;
  • 05 特效行业的诸多镜头可以直接使用AI生成;
  • 06 以后拍戏不需要这么多演员了;
  • 07 游戏、动画行业的制作成本将会被大大降低,建模过程可以直接省略了;
  • 08 以后自己写剧本、自己生成视频,再加上人机交互的机器,《头号玩家》的剧情会加速到来;
  • 09 人人都有机会成为AI导演;
  • 10 Sora将会加速数字人、自动驾驶、智慧成本、元宇宙等行业的发展,降低了数字资产的成本;
  • 11 AI视频赛道将会迎来新的竞争点。此前被众人看好的Pika、Runway需要重新思考发展方向;
  • 12 当视频被生成以后,世界是真实的可能性越来越微乎其微。继电话、数字人诈骗后,新的诈骗手段也会层出不穷;
  • 13  客观来看,Sora的视频现在还存在着不连贯帧数、卡帧、断帧等问题,准确性不足等问题,但这些都会随着技术的进步而解决。

01 世界模型意味着什么?

维特根斯坦在《逻辑哲学论》里说,句子是实在的图像语言,意思是句子、语言可以影射世界的真实状态,语言就是我们的世界模型。

而现在,Sora已经通过大量的数据,能够理解物理世界的运动规律,学会了关于3D几何形状和一致性的知识,通过运动、反射等方式,创建了一个包含物理规则、与真实世界接近的虚拟世界。

 某种程度上来说,Sora已经可以像人一样,对世界有了全面准确地认知。

例如,Sora在生成“色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界”为主题的视频中,可以自己通过运镜拍摄,展现内容。 

项目研究员Bill Peebles指出,“视频中实际上发生了多次镜头转换——这些镜头并非后期拼接而成,而是模型一气呵成地生成的。我们并没有特别指令它这么做,它却能自动完成。” 

02 Sora的成果

提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。

一镜到底的60秒视频里,主体人物和背景都十分稳定,且全景、特写、镜头推拉摇移都有,有着复杂的摄影机运动。细节上水中的倒影也在变化。主体人物走动的时候,背景的招牌也在不断发生变化。有氛围,风格绚丽,堪比电影大片的质感。以后导演做创投的时候可以直接用AI生成短片,无需花高价拍摄了。

提示词:一个美丽的剪影动画展示了一只狼对着月亮嚎叫,感到孤独,直到它找到狼群。

整个视频通过蓝色的背影和狼的剪影,极好地展现出了狼的孤独,剧情上从一匹狼到多匹狼过渡自然,镜头语言上全景和中景、特写交替切换。Sora不仅懂拍摄,还可以识别人类的情绪。

提示词:与中国龙一起庆祝中国农历新年的视频。

龙的形象十分真实且符合节日氛围,人群也很有春节的氛围。

提示词:一位24岁女子在魔法时刻站在马拉喀什,眨眼的特写镜头,70毫米拍摄的电影胶片,景深,生动的色彩,电影。

视频中,人物的皮肤细节、睫毛都是十分逼真,和真人实拍几乎没有差别。

03 结语

Sora技术报告详细内容可以看技术文档:

https://openai.com/research/video-generation-models-as-world-simulators

 OpenAI也宣布,将在今天晚些时候,更新技术论文。不过根据Openai之前的发布风格,当真正有用的东西出来的时候,他们只会公开有限的东西,就像GPT4本身到现在也没有发布详细的技术参数。

或许,当Sora最终跟大家见面,就是在GPT5和ChatGPT相结合发布的时候。先不用说那时会有多炸裂的改进,就算跟现在Pika或Gen-2相近的视频生成功能,可以在ChatGPT不额外花钱使用,那也将会给用户带来很大的改变。

本文系作者 娱乐资本论 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

11:48

从严监管进行时,又有3家券商吃罚单

11:47

董事长刘淼任期到何时?是否续任?泸州老窖回应

11:45

星巴克小程序APP双双崩了

11:42

浙江消费品以旧换新奖补政策采取省市县三级财政同向发力,包含汽车、家电等多领域

11:38

世茂集团港股涨幅扩大至70%

11:38

国内商品期市午盘多数下跌,胶合板主力合约跌停

11:36

A股午评:创业板指半日跌1.16%,电力、人造肉概念股逆势走强

11:30

人民银行广东省分行:加大跨境贸易投融资便利化政策供给,争取更多试点政策落地广东

11:29

TikTok将自动标记从其他部分平台上传的人工智能生成内容

11:28

纯电需求疲软,福特考虑放弃到2030年在欧停售燃油车计划

11:27

瑞典央行行长:欧洲必须缩小与美国的生产率差距

11:26

美联储戴利:未来几个月通胀走向存在相当大的不确定性

11:25

广东:推动埃克森美孚一期于今年年底投产、巴斯夫一体化项目于明年建成

11:22

今年前4月广东进出口额达2.8万亿元,同比增长12.3%

11:18

合肥市将进一步调整优化房地产政策措施,包括实施购房补贴、房票安置全市域流通等

11:17

半导体板块震荡走低,北方华创跌超7%

11:16

美国康奈尔大学校长将辞任,为半年来第三位离职的藤校校长

11:14

美国“严重资不抵债”的按揭房屋占比小幅上升

11:13

汇控渣打据报要求英国政府放宽拟对华业务限制

11:11

细胞免疫治疗概念震荡下挫,冠昊生物跌超10%

扫描下载App