![]()
像P图一样“P视频”,这是Creati团队推出的新项目 Buzzy。
目前的AI视频生成还是抽卡模式,所以80%~90%的用户对第一次生成的视频不满意。
把光线调亮一点,让主播的眼睛看着镜头,把广告中的口红换成薯片。5分钟后,视频改好了,其他一切不变。事实上,Buzzy的定位是“视频界的Photoshop”。
张诗莹曾是AirPods创始团队核心成员、前Google Glass系统架构师。2021年她创立"感知阶跃"(Buzzy母公司),第一款产品ZMO.AI用GAN技术给国内电商做AI模特图,服务过CIDR、Shein等大型客户,MAU一度达到了700万。她发现"to B需要大服务团队,不适合startup基因",2023年底叫停了ZMO.AI。
2024年AI视频生成爆发,她转向C端,视频生成工具Creati,上线一年,Creati的全球用户量就突破了千万级别。产品ARR(年度经常性收入),一度达到了2000万美金。
做Creati时,她又发现海外大量SMB商家的“Mobile习惯”。比如,一位南美的小店主在运货,途中他就直接用手机拍摄了产品素材、短视频素材,快速在手机上编辑,然后发布到社交平台。他们不习惯打开PC端的AE、PR,一是麻烦,二是门槛太高。
"随时随地改视频"的移动场景,加上"改局部而非重做"的迭代逻辑,催生了Buzzy。
最近,Buzzy完成了由红点创投领投、创世伙伴创投等共同投资的2000万美元融资,这款“视频P图神器”究竟如何使用?它解决了哪些真实痛点?又将如何改变内容创作的方式?
以下为与张诗莹的对话全文,略有删减:
智客ZhiKer:请用一句话介绍Buzzy。
张诗莹:Buzzy 是一款面向海外SMB(小商家)和内容创作者的AI视频修改工具,用户通过自然语言对话就能对已有视频进行局部精修,比如换商品、替换商品材质、去掉路人、修改光影、修正眼神等。
用户不需要重拍或学习复杂剪辑软件,会说话就能用,我们的定位是"视频界的 Photoshop"。
智客ZhiKer:Buzzy 和其他视频剪辑、修改软件最大的区别是什么?
张诗莹:从功能逻辑来看,我们做的是视频修改,而非视频剪辑,对标的是AE、PR这类视频修改工具。
从使用层面而言,它又比AE、PR更简单、易上手,只需一部手机就能完成视频修改操作。![]()
Buzzy采用对话框交互模式,用户通过自然语言向下达指令,比如“把光线调亮”“把这个人换成我”“把商品口红换成薯片”,Buzzy仅针对局部进行修改,其他部分保持不变。
目前不少AI编辑器存在这样的问题,你让它换个人,它会把整个画面都改变;你让它调个光,可能连背景都换掉了。我们的核心优势在于只修改用户指定的部分,其他区域尽可能保持原貌。
智客ZhiKer:你们已经做一款视频生成产品Creati,又做了视频修改产品Buzzy,为什么要新做一个产品?
张诗莹:两个原因。
第一个是,我们在进行创意内容创作时发现,很多用户对AI生成的视频不满意,总觉得视频中某些部分不够理想,但又不愿重新生成,因为目前的视频生成还是抽卡,下一次结果也未必能完全满足需求。
第二,很多中小商家、非专业内容创作者,习惯用手机拍摄获取商品图、短视频等素材。但矛盾的是,创作工具往往集中在PC端。这就会导致内容创作链路的断裂。因此,无论Creati,还是Buzzy,我们都向用户提供了MobileApp产品,让素材的获取、内容创作和编辑、发布,都可以在手机上完成。
简单说一个场景,很多小商家常常在运货途中、或是在店里和顾客沟通时,突然想要修改视频,做发布广告,这种情况下他们不可能专门打开电脑使用。Buzzy就是很好的使用场景,它支持用户在手机上通过WhatsApp、Telegram等消息应用直接对话进行修改。
Buzzy是为了弥补中小商家、非专业内容创作者的痛点,用户对于不满意的视频不用一次又一次地重新生成,只需要针对不满意的位置进行局部修改。
智客ZhiKer:可以讲1-2个用户使用Buzzy的修改案例吗?
张诗莹:先看分享几个C端用户的案例。
左边这个视频是TikTok上的热门视频,有位用户看到后非常喜欢,想要模仿拍摄一段。于是他将两人的合影上传到Buzzy,几分钟后便生成了右边这个跳舞视频,在背景保持不变的情况下,画面中的人物被替换成了他们。
![]()
这是典型的旅游场景人物替换需求。左侧是原视频画面,用户观看后希望把自己的宠物融入到这个场景,就上传了两张狗狗的照片,然后向Buzzy提出具体要求,让两只狗站在红毯上,一边望着观众露出可爱表情,一边欢快地跑来跑去;随后镜头逐渐拉近,分别给两只狗一个可爱的特写;最后镜头抬起,拍摄后方的佩特拉古城,全程一镜到底。![]()
我们还开发了光线调整功能。不少用户在旅游恰巧遇到阴天,但是他们又希望呈现出晴天的效果,就可以用Buzzy的光线调整功能,将视频处理成晴天的效果,用户就不需要晴天的时候重新拍摄一遍了。![]()
还有一类比较典型的是访谈播客多机位需求,访谈类视频都比较长,如果观众长期看一个机位会产生视觉疲劳,但如果多机位的话,既能给观众增加一些新鲜度,又能给KOL增加留存率。![]()
智客ZhiKer:局部修改的视频有时间限制吗?
张诗莹:1.0版本限制为15秒且需全段重新生成,因此处理速度较慢,未来版本将支持“仅修改其中几秒”。
智客ZhiKer:局部修改后,再次生成视频需要多长时间?
张诗莹:一般情况下,视频修改的生成时间在 5- 10分钟,但如果遇到涉及名人、IP等需要审核的情况,所需时间会更长。
智客ZhiKer:B端用户用的最多的是什么功能?
张诗莹:第一类是使用Buzzy上的模板。用户在手机拍摄产品图后,在Buzzy上找到一个现成的广告模板,直接替换成自己的商品,生成一个新的卖货广告。这样一来,商家既不需要重新拍摄广告,又可以快速打造产品爆款。
第二类是针对没有视频素材、缺乏创作思路的用户,Buzzy可以进行竞品product URL分析,分析内容涵盖商品名称、产品图、描述等信息。分析之后,用户可将广告中的商品通过Video Photoshop替换为自家的商品或是把自己爆款的广告素材来去做裂变二创,同时修改卖点,重新生成一条新的广告素材。
Buzzy会基于竞品广告持续推送新的广告创意,帮助用户更快产出广告内容。如果用户在手机端使用Buzzy,就随时监控竞品广告及新广告的效果,
除Video Photoshop功能外,我们还打造了一个类似Pinterest的灵感面板,当用户将自己喜欢的视频分享给灵感Agent后,AI会解析视频的核心创意与思路,然后开始7×24小时不间断在不同社媒平台寻找相关素材(TikTok、Instagram等),为用户搜索灵感。
智客ZhiKer:用了爆款的模板,一定能生产爆款吗?
张诗莹:无论是创作者还是商家,往往难以预判一条视频能否成为爆款。
所以,未来我们会借用数据驱动的方法,帮助用户对修改后的视频进行AB测试,最终打造出更优质的视频内容。
智客ZhiKer:你们用的哪一款视频基模,如何能做到保持一致性?
张诗莹:我们目前没有绑定任何一家基模,其实是"水涨船高"的逻辑,基模是水,我们是船,水涨了船自然跟着高。
现在用得比较多的是 Seedance2.0,因为它的确定性很高,大概有 95% 的成功率。我说的确定性就是"抽卡"的意思,之前我们也用过 Sora、Veo3,即使加了小模型仍然需要大量抽卡。
保持一致性,光靠基模是不够的,我们也做了很多积累。
一方面,我们专门做了一个商品一致性的小模型,喂了很多商品数据进去,让商品的光影、形状、一致性效果更好。商家对一致性要求极高,广告里卖的是 A,用户收到的是 B,就是"货不对板",会产生退货和投诉。
另一方面,这源于我们团队的技术积累。我的联合创始人 Charlie Ma,有10年Gen AI研发经验,是最早一批做生成式算法的科学家之一,发表了世界上第一篇人体生成的论文,之前大家还在做猫狗物品的生成,他是第一个做人像姿态可控性生成的。他从 2021 年团队成立就加入了,创业五年一直在做这一块。
外加上,我们第一款产品 ZMO.ai 是面向国内 B 端电商客户的 AI 模特图生成平台,后来也扩展到商品图设计、编辑等场景。所以在人像、商品的一致性上,我们算是投入了比较多的研发。
智客ZhiKer:接下来产品会有哪些更新?
张诗莹:接下来有几个比较重要的更新方向。
第一个是时间轴编辑功能。现在用户需要先自己截取15秒,下一个版本可以直接上传长视频,在时间轴上选取要修改的片段。修改时长越短,生成越快,从现在的5-10分钟缩短到3-4分钟。
第二个是审核机制优化。涉及IP版权的视频,审核时间通常需要5-6分钟,并且模型会对视频进行大量修改,改动太多又不符合用户预期,所以本周会上一版,快速告诉用户视频可能有IP问题,让用户自己决策是否接受大量修改。
第三个是基础编辑功能完善,比如加字幕、改字幕、加动态图形。我们会以更简单的方式做,比如直接语音说"把价格从99改成79",AI精准修改,其他保持不变。
第四个是手机端体验优化。后面会加入语音输入,用户对着手机说话就能改,Agent理解意图。电脑端会有更精细的圈选和时间轴功能。
智客ZhiKer:目前融资情况如何?
张诗莹:最近完成了新一轮2000万美元融资,红点创投领投、创世伙伴创投等共同投资,融资主要用于Buzzy 产品的发布和视频编辑方向的研发。(作者|郭虹妘,编辑|杨林)







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论