视频界的Photoshop来了：视频不用重拍，说话就能改

像P图一样“P视频”，这是Creati团队推出的新项目 Buzzy。

目前的AI视频生成还是抽卡模式，所以80%~90%的用户对第一次生成的视频不满意。

把光线调亮一点，让主播的眼睛看着镜头，把广告中的口红换成薯片。5分钟后，视频改好了，其他一切不变。事实上，Buzzy的定位是“视频界的Photoshop”。

张诗莹曾是AirPods创始团队核心成员、前Google Glass系统架构师。2021年她创立"感知阶跃"（Buzzy母公司），第一款产品ZMO.AI用GAN技术给国内电商做AI模特图，服务过CIDR、Shein等大型客户，MAU一度达到了700万。她发现"to B需要大服务团队，不适合startup基因"，2023年底叫停了ZMO.AI。

2024年AI视频生成爆发，她转向C端，视频生成工具Creati，上线一年，Creati的全球用户量就突破了千万级别。产品ARR（年度经常性收入），一度达到了2000万美金。

做Creati时，她又发现海外大量SMB商家的“Mobile习惯”。比如，一位南美的小店主在运货，途中他就直接用手机拍摄了产品素材、短视频素材，快速在手机上编辑，然后发布到社交平台。他们不习惯打开PC端的AE、PR，一是麻烦，二是门槛太高。

"随时随地改视频"的移动场景，加上"改局部而非重做"的迭代逻辑，催生了Buzzy。

最近，Buzzy完成了由红点创投领投、创世伙伴创投等共同投资的2000万美元融资，这款“视频P图神器”究竟如何使用？它解决了哪些真实痛点？又将如何改变内容创作的方式？

以下为与张诗莹的对话全文，略有删减：

智客ZhiKer：请用一句话介绍Buzzy。

张诗莹：Buzzy 是一款面向海外SMB（小商家）和内容创作者的AI视频修改工具，用户通过自然语言对话就能对已有视频进行局部精修，比如换商品、替换商品材质、去掉路人、修改光影、修正眼神等。

用户不需要重拍或学习复杂剪辑软件，会说话就能用，我们的定位是"视频界的 Photoshop"。

智客ZhiKer：Buzzy 和其他视频剪辑、修改软件最大的区别是什么？

张诗莹：从功能逻辑来看，我们做的是视频修改，而非视频剪辑，对标的是AE、PR这类视频修改工具。

从使用层面而言，它又比AE、PR更简单、易上手，只需一部手机就能完成视频修改操作。

Buzzy采用对话框交互模式，用户通过自然语言向下达指令，比如“把光线调亮”“把这个人换成我”“把商品口红换成薯片”，Buzzy仅针对局部进行修改，其他部分保持不变。

目前不少AI编辑器存在这样的问题，你让它换个人，它会把整个画面都改变；你让它调个光，可能连背景都换掉了。我们的核心优势在于只修改用户指定的部分，其他区域尽可能保持原貌。

智客ZhiKer：你们已经做一款视频生成产品Creati，又做了视频修改产品Buzzy，为什么要新做一个产品？

张诗莹：两个原因。

第一个是，我们在进行创意内容创作时发现，很多用户对AI生成的视频不满意，总觉得视频中某些部分不够理想，但又不愿重新生成，因为目前的视频生成还是抽卡，下一次结果也未必能完全满足需求。

第二，很多中小商家、非专业内容创作者，习惯用手机拍摄获取商品图、短视频等素材。但矛盾的是，创作工具往往集中在PC端。这就会导致内容创作链路的断裂。因此，无论Creati，还是Buzzy，我们都向用户提供了MobileApp产品，让素材的获取、内容创作和编辑、发布，都可以在手机上完成。

简单说一个场景，很多小商家常常在运货途中、或是在店里和顾客沟通时，突然想要修改视频，做发布广告，这种情况下他们不可能专门打开电脑使用。Buzzy就是很好的使用场景，它支持用户在手机上通过WhatsApp、Telegram等消息应用直接对话进行修改。

Buzzy是为了弥补中小商家、非专业内容创作者的痛点，用户对于不满意的视频不用一次又一次地重新生成，只需要针对不满意的位置进行局部修改。

智客ZhiKer：可以讲1-2个用户使用Buzzy的修改案例吗？

张诗莹：先看分享几个C端用户的案例。

左边这个视频是TikTok上的热门视频，有位用户看到后非常喜欢，想要模仿拍摄一段。于是他将两人的合影上传到Buzzy，几分钟后便生成了右边这个跳舞视频，在背景保持不变的情况下，画面中的人物被替换成了他们。

这是典型的旅游场景人物替换需求。左侧是原视频画面，用户观看后希望把自己的宠物融入到这个场景，就上传了两张狗狗的照片，然后向Buzzy提出具体要求，让两只狗站在红毯上，一边望着观众露出可爱表情，一边欢快地跑来跑去；随后镜头逐渐拉近，分别给两只狗一个可爱的特写；最后镜头抬起，拍摄后方的佩特拉古城，全程一镜到底。

我们还开发了光线调整功能。不少用户在旅游恰巧遇到阴天，但是他们又希望呈现出晴天的效果，就可以用Buzzy的光线调整功能，将视频处理成晴天的效果，用户就不需要晴天的时候重新拍摄一遍了。

还有一类比较典型的是访谈播客多机位需求，访谈类视频都比较长，如果观众长期看一个机位会产生视觉疲劳，但如果多机位的话，既能给观众增加一些新鲜度，又能给KOL增加留存率。

智客ZhiKer：局部修改的视频有时间限制吗？

张诗莹：1.0版本限制为15秒且需全段重新生成，因此处理速度较慢，未来版本将支持“仅修改其中几秒”。

智客ZhiKer：局部修改后，再次生成视频需要多长时间？

张诗莹：一般情况下，视频修改的生成时间在 5- 10分钟，但如果遇到涉及名人、IP等需要审核的情况，所需时间会更长。

智客ZhiKer：B端用户用的最多的是什么功能？

张诗莹：第一类是使用Buzzy上的模板。用户在手机拍摄产品图后，在Buzzy上找到一个现成的广告模板，直接替换成自己的商品，生成一个新的卖货广告。这样一来，商家既不需要重新拍摄广告，又可以快速打造产品爆款。

第二类是针对没有视频素材、缺乏创作思路的用户，Buzzy可以进行竞品product URL分析，分析内容涵盖商品名称、产品图、描述等信息。分析之后，用户可将广告中的商品通过Video Photoshop替换为自家的商品或是把自己爆款的广告素材来去做裂变二创，同时修改卖点，重新生成一条新的广告素材。

Buzzy会基于竞品广告持续推送新的广告创意，帮助用户更快产出广告内容。如果用户在手机端使用Buzzy，就随时监控竞品广告及新广告的效果，

除Video Photoshop功能外，我们还打造了一个类似Pinterest的灵感面板，当用户将自己喜欢的视频分享给灵感Agent后，AI会解析视频的核心创意与思路，然后开始7×24小时不间断在不同社媒平台寻找相关素材（TikTok、Instagram等），为用户搜索灵感。

智客ZhiKer：用了爆款的模板，一定能生产爆款吗？

张诗莹：无论是创作者还是商家，往往难以预判一条视频能否成为爆款。

所以，未来我们会借用数据驱动的方法，帮助用户对修改后的视频进行AB测试，最终打造出更优质的视频内容。

智客ZhiKer：你们用的哪一款视频基模，如何能做到保持一致性？

张诗莹：我们目前没有绑定任何一家基模，其实是"水涨船高"的逻辑，基模是水，我们是船，水涨了船自然跟着高。

现在用得比较多的是 Seedance2.0，因为它的确定性很高，大概有 95% 的成功率。我说的确定性就是"抽卡"的意思，之前我们也用过 Sora、Veo3，即使加了小模型仍然需要大量抽卡。

保持一致性，光靠基模是不够的，我们也做了很多积累。

一方面，我们专门做了一个商品一致性的小模型，喂了很多商品数据进去，让商品的光影、形状、一致性效果更好。商家对一致性要求极高，广告里卖的是 A，用户收到的是 B，就是"货不对板"，会产生退货和投诉。

另一方面，这源于我们团队的技术积累。我的联合创始人 Charlie Ma，有10年Gen AI研发经验，是最早一批做生成式算法的科学家之一，发表了世界上第一篇人体生成的论文，之前大家还在做猫狗物品的生成，他是第一个做人像姿态可控性生成的。他从 2021 年团队成立就加入了，创业五年一直在做这一块。

外加上，我们第一款产品 ZMO.ai 是面向国内 B 端电商客户的 AI 模特图生成平台，后来也扩展到商品图设计、编辑等场景。所以在人像、商品的一致性上，我们算是投入了比较多的研发。

智客ZhiKer：接下来产品会有哪些更新？

张诗莹：接下来有几个比较重要的更新方向。

第一个是时间轴编辑功能。现在用户需要先自己截取15秒，下一个版本可以直接上传长视频，在时间轴上选取要修改的片段。修改时长越短，生成越快，从现在的5-10分钟缩短到3-4分钟。

第二个是审核机制优化。涉及IP版权的视频，审核时间通常需要5-6分钟，并且模型会对视频进行大量修改，改动太多又不符合用户预期，所以本周会上一版，快速告诉用户视频可能有IP问题，让用户自己决策是否接受大量修改。

第三个是基础编辑功能完善，比如加字幕、改字幕、加动态图形。我们会以更简单的方式做，比如直接语音说"把价格从99改成79"，AI精准修改，其他保持不变。

第四个是手机端体验优化。后面会加入语音输入，用户对着手机说话就能改，Agent理解意图。电脑端会有更精细的圈选和时间轴功能。

智客ZhiKer：目前融资情况如何？

张诗莹：最近完成了新一轮2000万美元融资，红点创投领投、创世伙伴创投等共同投资，融资主要用于Buzzy 产品的发布和视频编辑方向的研发。（作者｜郭虹妘，编辑｜杨林）

视频界的Photoshop来了：视频不用重拍，说话就能改｜AI Founder请回答

敬原创，有钛度，得赞赏