国内团队发布“视频生音频”通用工具Sora Opera，文生视频解除“静音模式”-钛媒体官方网站

图片来源@视觉中国

文 | 娱乐资本论，作者 | James

上周六，文生视频工具Pika宣布可以在生成视频中添加配乐和音效。此外，用户还可以对以前生成的静音视频添加音效。Pika官方表示，视频生成功能现已松开了“静音键”。但要测试这个新功能，用户需要购买Pika会员。

今年3月初，娱乐资本论·视智未来得知国内有团队已经有了“同款”音频生成工具，并且在内部试用了小半年，用于给文生视频的静音画面添加音效或背景音乐。当时，这个应用尚未对外发布。

如今，该技术背后的团队“天图万境”已准备好对外亮相。由他们开发，并与华为云合作部署的这款名为Sora Opera的小工具，将在3月内上线。

天图万境方面也向视智未来提供了Sora Opera项目的体验网址：

http://soraopera.skymaper.com ，将在几天内向公众开放。

产品首先在华为云平台上发布，随后还将推出可在本机运行的开源版本。即使在云端，使用Sora Opera进行视频配音也将是免费的。

Sora Opera还计划提供两项功能：文生音效和视频配乐，不过限于算力成本，云端版本会先提供给其合作伙伴使用。

文本生成音效功能，允许用户输入诸如“刀剑击打声”或“清脆悦耳的鸟叫声”等提示词，以获取相应的音频片段。视频配乐功能则用于生成具有特定旋律、节奏的背景音乐。

Sora Opera的开源版本将在云端上线后一段时间，收集反馈改进后放出。使用本机算力时，视频音效、BGM、文字生音效等功能可以随意使用。

天图万境的创始人图拉古，向视智未来展示了几段Sora Opera的演示视频。这些视频原本是静音的，来自OpenAI发布的演示页面。

通过Sora Opera处理后，视频画面根据模型的想象加入了音效，比如猛犸象的声音、小动物的叫声、帆船在茶杯中航行的声音等。视频的音量和停顿是根据画面的内容来确定的。

对于“一个女子在东京街头走动”的视频，系统还添加了一段具有30年代风格的曲调。

效率方面，“我们在一张1080ti的显卡下，大概是生成4个14秒带音效的视频，需要将近10秒。在3090的显卡下，大概是你感受不到一点等待就完成了。”

Sora Opera的专业版可以支持长达60分钟的完整视频配音，用户还可以将自己拍摄的素材重新导入到Sora Opera里来获得新的音效或者新的灵感。

不仅如此，Sora Opera还具备其它一些特色功能：

它不仅能为AI生成的视频配音，还能为已经存在的视频重新配音。

它可以根据画面来处理非常复杂的内容信息，比如说经过加速处理的视频内容，也可以精准的为其匹配音效。

它可以精准的识别图像的节奏，以及与画面之外可能存在的声像关系，比如除了摸花朵之外的声音之外，还可以听到衣服摩擦的声音。

它可以理解真实世界的声音生产的规则，并尽可能准确的还原这些声音。在咖啡机制咖啡的视频配音时，它会有机器启动和停止的声音，并与画面中咖啡停止出液并倒吸的过程匹配。

它甚至还可以为那些坏掉的AI视频，重新配一种更加魔幻的音乐，产生有趣的效果。

Sora Opera还专门针对绿幕制作的素材进行了训练，它可以根据画面的人物状态和动作，以及画面中所包含的道具，进行精准的卡点配音。

它还专门针对声音可能形成的声源，和额外可能的同声源数据进行了训练，在一段女性头发被大风吹乱的绿幕视频中，它为没有出现在画面里的风机配音。这无需输入任何提示词来辅助。

尽管市面上已有多种同类文生视频工具如Pika、Gen-2、SVD等，它们目前版本生成的片段都是静音的，为视频配乐仍是一个挑战。但过去一年中，AI音乐领域的研究并未停滞。

目前，市面上较为常用的音乐生成器Suno，能生成带歌词或纯音乐的音频片段。不过Suno仍存在一些问题，如无法设置主旋律、副歌等节奏，生成的音乐缺乏一致性、无法通过现有旋律改变曲风等。

尽管如此，这类工具已能制作出完整的1-2分钟旋律。视智未来的最新直播+播客节目《对话AI创业者》，就使用Suno生成了片头片尾音乐。

为视频卡点配乐，可能是反向推动AI作曲发展的一种方法。视频配乐的关键在于准确匹配画面，如需解决主旋律和加入副歌等问题，可以通过调整需要配乐的画面，来实现一定程度的控制。

随着文生视频技术的成熟，市面上出现了视频创作大赛和“赏金猎人”群体。在《对话AI创业者》第一期提问中，VAST CMO Sierra告诉视智未来，人们逐渐发现，以图片为基准的图生视频其实比文生视频更常用。

类似地，基于已有静音视频生成音频，比单纯的文生音频更实用。这类工具的普及，尤其是Sora Opera带头的免费及开源提供，将打通视频生产管线的更多环节，使视频生成的效果更好，使用场景也更广泛，甚至可能对传统的PPT演示形成并用或替代的趋势。

图拉古在接受视智未来提问时也提到了产品的竞争壁垒。他本人具有电影导演经历，对电影工业运作较为熟悉。他们使用的音频模型是基于广泛的声音库训练的，更适合影视制作的流程。他强调，就像“提示词工程”一样，AI模型垂直优化的过程，非常依赖于开发者对行业基础知识的理解。

天图万境的研发过程始于2016年，过去推出的多种技术，比过去一两年德国马普所（马克斯·普朗克经验美学研究所）、Stable Diffusion、Luma AI、Wonder Studio等同类产品更早投入小范围商业使用，但未能成为C端广泛应用的现象级工具。刚开始时，他们甚至很难向市场解释他们所做的工作是什么，直到后来国外的“现象级”产品教育市场。

图拉古指出，这种情况会让外界认为许多相关创新都是国外首创的，而国内没有原发创新能力。但实际上，国内技术也已在同等领域取得显著成就，只是需要机会被外界认知。这也是他们的视频生音频应用被命名为“Sora Opera”，希望一定程度借势展现其技术能力的原因。

图拉古介绍，天图万境的业务范围比较广泛。Sora Opera是他们互动影游业务开发过程中的副产品。

去年底完成制作的一款“超感影游”，用AI在剧本、原画、动画、配乐等全场景参与，提高了整个团队的制作效率，目前单款剧本制作周期可以短至19天。

这种在线下游玩的多人互动产品，利用AI生成了多线分支的剧本，使每位参与者的选择都能引导游戏走向不同的剧情分支。这款产品将投放商超点位，与狼人杀、剧本杀等产品竞争，且具备体验相对稳定，不依赖真人主持的优势。

Sora Opera有适用于“超感影游”开发的专业版本，为沉浸式互动影游提供专业级生产保障。目前天图万境通过Sora Opera生产的“超感影游”已有《命运之海》《幽灵堡垒》《太阳神诅咒》《凡尘》《主角学院》等。

国内团队发布“视频生音频”通用工具Sora Opera，文生视频解除“静音模式”

敬原创，有钛度，得赞赏