2024CTIS-文章详情页顶部

国内团队发布“视频生音频”通用工具Sora Opera,文生视频解除“静音模式”

钛度号
全免费,还会有开源版本。

图片来源@视觉中国

图片来源@视觉中国

文 | 娱乐资本论,作者 | James

上周六,文生视频工具Pika宣布可以在生成视频中添加配乐和音效。此外,用户还可以对以前生成的静音视频添加音效。Pika官方表示,视频生成功能现已松开了“静音键”。但要测试这个新功能,用户需要购买Pika会员。   

今年3月初,娱乐资本论·视智未来得知国内有团队已经有了“同款”音频生成工具,并且在内部试用了小半年,用于给文生视频的静音画面添加音效或背景音乐。当时,这个应用尚未对外发布。

如今,该技术背后的团队“天图万境”已准备好对外亮相。由他们开发,并与华为云合作部署的这款名为Sora Opera的小工具,将在3月内上线。

天图万境方面也向视智未来提供了Sora Opera项目的体验网址:

http://soraopera.skymaper.com ,将在几天内向公众开放。

产品首先在华为云平台上发布,随后还将推出可在本机运行的开源版本。即使在云端,使用Sora Opera进行视频配音也将是免费的。

Sora Opera还计划提供两项功能:文生音效和视频配乐,不过限于算力成本,云端版本会先提供给其合作伙伴使用。

文本生成音效功能,允许用户输入诸如“刀剑击打声”或“清脆悦耳的鸟叫声”等提示词,以获取相应的音频片段。视频配乐功能则用于生成具有特定旋律、节奏的背景音乐。

Sora Opera的开源版本将在云端上线后一段时间,收集反馈改进后放出。使用本机算力时,视频音效、BGM、文字生音效等功能可以随意使用。   

天图万境的创始人图拉古,向视智未来展示了几段Sora Opera的演示视频。这些视频原本是静音的,来自OpenAI发布的演示页面。

通过Sora Opera处理后,视频画面根据模型的想象加入了音效,比如猛犸象的声音、小动物的叫声、帆船在茶杯中航行的声音等。视频的音量和停顿是根据画面的内容来确定的。

对于“一个女子在东京街头走动”的视频,系统还添加了一段具有30年代风格的曲调。

效率方面,“我们在一张1080ti的显卡下,大概是生成4个14秒带音效的视频,需要将近10秒。在3090的显卡下,大概是你感受不到一点等待就完成了。”

Sora Opera的专业版可以支持长达60分钟的完整视频配音,用户还可以将自己拍摄的素材重新导入到Sora Opera里来获得新的音效或者新的灵感。

不仅如此,Sora Opera还具备其它一些特色功能:

它不仅能为AI生成的视频配音,还能为已经存在的视频重新配音。

它可以根据画面来处理非常复杂的内容信息,比如说经过加速处理的视频内容,也可以精准的为其匹配音效。

它可以精准的识别图像的节奏,以及与画面之外可能存在的声像关系,比如除了摸花朵之外的声音之外,还可以听到衣服摩擦的声音。

它可以理解真实世界的声音生产的规则,并尽可能准确的还原这些声音。在咖啡机制咖啡的视频配音时,它会有机器启动和停止的声音,并与画面中咖啡停止出液并倒吸的过程匹配。

它甚至还可以为那些坏掉的AI视频,重新配一种更加魔幻的音乐,产生有趣的效果。

Sora Opera还专门针对绿幕制作的素材进行了训练,它可以根据画面的人物状态和动作,以及画面中所包含的道具,进行精准的卡点配音。

它还专门针对声音可能形成的声源,和额外可能的同声源数据进行了训练,在一段女性头发被大风吹乱的绿幕视频中,它为没有出现在画面里的风机配音。这无需输入任何提示词来辅助。

尽管市面上已有多种同类文生视频工具如Pika、Gen-2、SVD等,它们目前版本生成的片段都是静音的,为视频配乐仍是一个挑战。但过去一年中,AI音乐领域的研究并未停滞。

目前,市面上较为常用的音乐生成器Suno,能生成带歌词或纯音乐的音频片段。不过Suno仍存在一些问题,如无法设置主旋律、副歌等节奏,生成的音乐缺乏一致性、无法通过现有旋律改变曲风等。   

尽管如此,这类工具已能制作出完整的1-2分钟旋律。视智未来的最新直播+播客节目《对话AI创业者》,就使用Suno生成了片头片尾音乐。

为视频卡点配乐,可能是反向推动AI作曲发展的一种方法。视频配乐的关键在于准确匹配画面,如需解决主旋律和加入副歌等问题,可以通过调整需要配乐的画面,来实现一定程度的控制。

随着文生视频技术的成熟,市面上出现了视频创作大赛和“赏金猎人”群体。在《对话AI创业者》第一期提问中,VAST CMO Sierra告诉视智未来,人们逐渐发现,以图片为基准的图生视频其实比文生视频更常用。

类似地,基于已有静音视频生成音频,比单纯的文生音频更实用。这类工具的普及,尤其是Sora Opera带头的免费及开源提供,将打通视频生产管线的更多环节,使视频生成的效果更好,使用场景也更广泛,甚至可能对传统的PPT演示形成并用或替代的趋势。

图拉古在接受视智未来提问时也提到了产品的竞争壁垒。他本人具有电影导演经历,对电影工业运作较为熟悉。他们使用的音频模型是基于广泛的声音库训练的,更适合影视制作的流程。他强调,就像“提示词工程”一样,AI模型垂直优化的过程,非常依赖于开发者对行业基础知识的理解。   

天图万境的研发过程始于2016年,过去推出的多种技术,比过去一两年德国马普所(马克斯·普朗克经验美学研究所)、Stable Diffusion、Luma AI、Wonder Studio等同类产品更早投入小范围商业使用,但未能成为C端广泛应用的现象级工具。刚开始时,他们甚至很难向市场解释他们所做的工作是什么,直到后来国外的“现象级”产品教育市场。

图拉古指出,这种情况会让外界认为许多相关创新都是国外首创的,而国内没有原发创新能力。但实际上,国内技术也已在同等领域取得显著成就,只是需要机会被外界认知。这也是他们的视频生音频应用被命名为“Sora Opera”,希望一定程度借势展现其技术能力的原因。

图拉古介绍,天图万境的业务范围比较广泛。Sora Opera是他们互动影游业务开发过程中的副产品。

去年底完成制作的一款“超感影游”,用AI在剧本、原画、动画、配乐等全场景参与,提高了整个团队的制作效率,目前单款剧本制作周期可以短至19天。

这种在线下游玩的多人互动产品,利用AI生成了多线分支的剧本,使每位参与者的选择都能引导游戏走向不同的剧情分支。这款产品将投放商超点位,与狼人杀、剧本杀等产品竞争,且具备体验相对稳定,不依赖真人主持的优势。

Sora Opera有适用于“超感影游”开发的专业版本,为沉浸式互动影游提供专业级生产保障。目前天图万境通过Sora Opera生产的“超感影游”已有《命运之海》《幽灵堡垒》《太阳神诅咒》《凡尘》《主角学院》等。

本文系作者 娱乐资本论 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App