对话VUI Labs梅杰：语音延迟仅1.4秒，国产版“Wispr Flow”

“训练语音模型时，如果把所有背景噪声都去掉，用最干净的数据去训练，模型效果反而不如那些夹杂着各种嘈杂声音训练出来的版本。”VUI Labs（宇生月伴）创始人梅杰提到这个反直觉的现象时，语气里带着一种对行业 know-how 的自信。

这个技术细节，某种程度上揭示了语音交互赛道的独特竞争逻辑。不同于视频生成、代码生成等领域可以用算力和资本直接碾压，语音交互的长尾场景极其复杂且难以标准化，AI陪伴儿童玩具需要“像幼儿园老师一样温暖”；AI陪伴男友既需要霸总的声音，也需要青春男生的声音。“可以说一个 AI 陪伴男友需要 100 多个性格迥异的虚拟声音。”梅杰透露，你很难用一个通用模型同时满足幼教的亲和力和情感陪伴的细腻度。

这些长尾需求，豆包、千问、MiniMax 等大厂的通用模型大约能覆盖 60%，剩下 40% 的市场需要深度定制。但从机会成本看，大厂不会为单一的客户需求投入更多资源。

在他们眼中，语音业务远不如推理、视频生成等十亿美金级别的产品重要。这个空白地带，正是 VUI Labs 看到的机会。

2026 年初，这家成立仅一年的公司完成数千万元天使+轮融资，由同创伟业领投，老股东靖亚资本、小苗朗程持续加注。这家公司半年内累计融资近亿元。创始人梅杰是连续创业者，浙大竺可桢学院创新与创业管理强化班校友。联合创始人钱彦旻是上海交大计算机学院特聘教授、教育部长江学者，其团队早在 2019 年就在全球首次提出端到端语音模型训练方案。

VUI Labs 基于千问等开源大模型重新构建端到端语音对话模型，针对客户长尾场景做深度定制，从数据管线中“反直觉”的噪声处理，到算法层面融合 Transformer与卷积神经网络、借鉴脑科学的情感计算，再到推理层面的延时优化，每一层都在解决大厂通用模型“最后 40%”的问题。

目前，VUI Labs 已与荣耀、紫光展锐、印象笔记等头部客户达成合作。API 平台推出首月，Luna-TTS模型即实现 200 万元收入。

在大厂主导的 AI 时代，一家创业公司如何在语音赛道找到生存空间？端到端模型的技术壁垒究竟在哪里？与巨头的差异化竞争点是什么？

VUI Labs创始人梅杰

▎以下为与梅杰的对话全文，略有删减：

智客ZhiKer：为什么选择做情感语音交互方向？

梅杰：选择做这件事情其实有两方面因素，一个是市场需求，一个是我们本身的技术储备积累。

从技术储备来看，我们的联合创始人钱彦旻教授是国内语音领域最优秀的科学家之一，也是全球范围内最早提出端到端语音对话模型的科学家之一，2019 年就发表了第一篇端到端语音对话模型的论文。这个时间点是非常早的。

为什么情感对话和端到端语音模型密切相关？过去的语音交互，比如天猫精灵、小爱音箱，本质上是指令控制，并没有真正的智能。

随着大模型的发展，AI 有了智能，但在真人对话过程中，除了文本信息，还有大量副语言信息。比如我现在边思考边讲，中间会夹杂着停顿、语气变化，甚至话没说完的情况。这些信息在传统方案下往往都会被丢失。

更重要的一点是，人在不同的情绪和情感状态下，所表达的意思可能完全不同。举个例子，“你可真行，你可真厉害”，从文本角度看是肯定，但在真实对话中可能是嘲讽。只有在端到端语音交互模型下，才能实现更拟人、更丰富情感的能力，这是我们整个技术路线选择的出发点。

智客ZhiKer：从市场角度，你们看到了什么样的机会？

梅杰：从市场角度来看，现在不管是对话机器人，还是各种 Agent 的应用、具身智能、智能硬件、智能玩具等等，大家对于语音交互的需求是越来越多的，对于体验的要求也越来越高。

我们有很多客户，在用上语音交互之后，就希望整个交互能够更加拟人化、表达更加富有情感。所以从发展趋势来讲，这是一个非常好的赛道。

智客ZhiKer：多模态情感交互语音大模型Luna系列跟传统方案有什么区别？

梅杰：我们采用的是端到端语音交互架构，而传统方案是级联模型，人说话之后，先用 ASR 把语音转化成文字，然后把文字交给 LLM 去理解，LLM 输出文字之后再交给 TTS 合成语音输出。这个过程会丢失大量信息。

但端到端模型不一样。我们相当于是在模型训练的时候，从一开始就把语音信号和文本做了很多对齐的训练，所以模型是能够直接理解语音的，不需要经过那个级联的转换。

在超低延时和丰富情感语音交互、丰富情感语音生成、多说话人理解等方面全面对标国内外的一线语音模型厂商，如Google，ElevenLabs，OpenAI，Hume AI和Sesame等。

智客ZhiKer：延时是多少？

梅杰：我们的语音对话延迟只有 1.4 秒，达到了行业领先水平。

Luna-1 在 VoiceBench 权威测评中取得了 79.05 分，这个分数是非常高的，紧随 GPT-4o-Audio 的 86.42 分。

Luna-TTS-1 语音合成模型的延迟更是低至 200 毫秒。

智客ZhiKer：情感识别在技术上是怎么实现的？

梅杰：情感识别主要靠两个方面，一个是算法，一个是数据。

从算法角度，我们的模型里面不只是有 Transformer 架构，还有卷积神经网络等不同的技术。为什么这么做？因为 Transformer 并不是在所有情况下都是最优的。钱教授还参与了国家脑科学计划，所以有很多算法是借鉴了人脑在处理声音情感时的计算方式，把过去 20 年的技术积累融入进去了。

从数据角度，我们构建了一个专门的语音对话数据管线。有一个非常有趣的现象，做其他训练的时候，比如做代码或者图像生成，你可能希望数据标注得越清晰越好，把噪音、杂音都去掉。但是在声音领域不是这样的，如果你用非常干净的纯语音数据去做训练，模型能力反而不行。

原因是真实的声音就是在嘈杂的、有各种不确定性的情况下发生的。你训练的时候给它太干净的数据，等遇到真实场景就不行了。包括喂给它的训练数据的顺序，先给什么数据、后给什么数据，都会影响模型的能力。这里面有很多 know-how，是我们的技术壁垒之一。

智客ZhiKer：面对大厂竞争，你们的差异化在哪里？

梅杰：我们并不觉得大厂在语音对话上有压倒性优势。原因有三点。

第一是人才。语音领域的顶尖人才本身就稀缺。大厂能触达的人才，我们团队也有。钱教授在这个领域深耕多年，我们在人才储备上不输大厂。

第二是战略聚焦度。我们只做语音这一件事。而大厂的精力更多放在推理、Coding、视频生成这些十亿美金级别的业务上。语音对他们来说不是战略重点。

第三是长尾场景的定制能力，这是最核心的差异化。我们有客户接了豆包、千问、MiniMax，但从具体场景来说，通用模型只能解决 50%～60%的问题，剩下 40% 解决不了。

举个例子，AI情感陪伴产品，每个角色都有独特的音色、声线、说话风格和语气。有的要像霸总一样有力量感，有的要温柔体贴会撒娇。通用模型不可能覆盖这些细分场景。

更关键的是，语音数据不像图像数据那样丰富。真实的人与人对话数据涉及隐私，互联网上根本没有，大厂也拿不到。这意味着每个客户的场景都需要用高度相关的数据单独训练。

大厂不会为了一个客户，去做这样的深度优化，机会成本太高。但我们不一样，既然聚焦语音赛道，我们就愿意为客户需求做数据层面的优化、模型层面的微调、预训练和后训练，最终把需求满足度从 60% 提升到 80%、90%，甚至 100%。

这就是我们的生存空间，大厂看不上的那 40%，恰恰是我们深耕的价值高地，也是我们不可替代的理由。

智客ZhiKer：商业模式是怎样的？

梅杰：商业模式有三类。

首先是基模的API，我们不会去做深度的项目制开发。我们的API覆盖语音领域的全栈模型，包括语音识别、语音合成、声音克隆、多说话人日志，智能打断、声音鉴别、端到端对话等。

其次，TTS模型的个性化研发和IP分成模式。我们聚焦泛娱乐场景，比如社交、游戏、AI 陪伴、情感陪伴、AI 漫剧、短剧等，这方面我们会给客户做一些个性化研发。与合作伙伴联合训练出来的声线或角色，通过长期分成方式构建商业模式。不是像以前外包一样一次性开发。

第三，语音智能体产品。构建面向C端用户和B端用户的VoiceAgent产品。

智客ZhiKer：目前服务了哪些客户？可以详细讲一个合作案例吗？

梅杰：我们已经和荣耀、紫光展锐、印象笔记等国内外头部企业合作。

跟硬件厂商的合作更偏前端，偏语音交互。我们有一些模型比如识别、抗噪、声音鉴伪，这些都是偏理解侧的。刚才讲的 AI 男友是偏生成侧，硬件厂商是偏理解侧。

举个例子，我们跟荣耀的合作，我们有一款多模态语音理解模型，可以用来做实时同声传译。硬件厂商希望在手机端侧就能搭载语音通话的同声传译，这样有几个好处：第一是隐私性，尤其是是荣耀在欧洲发布的手机，它们比较强调隐私，很多对话数据不会上传到云端，手机可以用本地模型解决。

荣耀的Case 有几个核心问题：第一它要求模型是端侧部署的Cost 要低；第二又能够非常好地做多国语言的同声传译；第三它要求保留说话人的说话风格和声音，相当于我既做翻译又做克隆，而且都是实时的，又是在设备端侧可以直接跑的。

这三个点，当时在那个阶段能做得比较好的，国内可能就我们。做了之后，这确实作为他高端折叠屏手机在欧洲市场的一个非常好的用户体验提升，因为其他手机品牌没有，而且到目前为止很多厂商也没能够跟进和做这件事情。

智客ZhiKer：听说你们也推出了 C 端产品？

梅杰：是的，这是我刚才讲的，我们在Voice Agent产品上的尝试。SaySo语音输入法，直接对标的是美国的 Wispr Flow。

https://www.sayso.ai/

Wispr Flow在海外的月费大概是12 美金，我们定价是 3-5 美金，这款AI语音输入法主要定位为创作者群体的语音输入助手。

现在很多创作者倾向于“口述创作”的模式，他们需要捕捉稍纵即逝的灵感，而语音是最快的载体。SaySo 的核心价值，就是用 AI 把这些碎片化的语音流，瞬间梳理成逻辑严密的结构化文字。我们要做的，就是让创作者彻底从繁琐的整理工作中解放出来。

SaySo产品我们年初刚推出PC 版，移动版正在开发中。

智客ZhiKer：宇生月伴正在建设的 Voice Agent 平台是什么？未来的规划是什么？

梅杰：Voice Agent 平台第一阶段主要服务创作者，围绕创作者的全工作流，做更深度的 Agent 能力进化。未来我们也会逐步切入B端市场。

从市场规划角度，我们在国内外有不同的策略。国内市场我们主要做 agent 应用，海外市场我们更多推模型能力。

为什么这么规划？因为放眼全球，真正能做模型的国家就是中美两个。但语音交互的需求是全球人都需要的。所以在海外，我们可能会推广基础的模型能力；在国内，我们觉得 Agent 应用更有市场，因为国内模型开源加上价格战，竞争很激烈。

智客ZhiKer：在国内做 Agent 应用，是做成独立的产品还是跟其他 Agent 合作？

梅杰：我们更倾向于做成独立的产品。因为对于 Voice Agent 平台来说，独立应用就是它落地的最佳载体（或者说‘第一入口’）。国内更适合做 C 端市场，C 端市场的话可能需要端到端交付。所以我们更偏向于做一个偏语音交互形态的 Agent 产品。

至于具体的产品形态，我们有一个从“广度”到“切入点”的思考逻辑：

从广度看，语音交互绝对是未来的主流接口。你看从儿童（天然 voice-first）到中老年群体（打字困难），他们对语音有着天然的刚需，这证明了 Voice Agent 的市场天花板极高，是全人群通用的。

但为了把产品做透，我们目前的切入点必须聚焦。既然第一阶段服务创作者，我们决定先把“语音输入”这个最高频、最刚需的场景做到极致，希望通过这个高频入口，先把模型能力打磨好，未来再顺势延展到更广泛的 C 端场景。

智客ZhiKer：公司现在团队规模如何？

梅杰：目前大概 20 个人，上海和杭州两地办公。上海偏算法，因为离钱教授的实验室比较近，算法的人上海更多一些；杭州偏工程。

智客ZhiKer：如何看待语音交互市场的未来？

梅杰：我们认为语音交互是未来最大最重要的交互界面。

你回想一下过去几十年交互界面的演进：从PC时代的键盘鼠标交互，到移动互联网时代的触屏交互，未来最大的交互就是语音交互。

随着 AI 能力的提升，人与软件交互的逻辑也在发生变化。过去我们需要先学会“怎么操作软件”，记很多菜单、按钮和指令；但未来，人可能只需要表达“我想要什么”。剩下的事情由 AI 去理解、拆解任务，再去执行。换句话说，过去我们是在学习怎么用软件，未来软件会学会理解人。

把人从很多繁琐的操作里解放出来。更多地去关注判断、创意和决策，而把执行层面的工作交给 AI。这种交互方式其实会出现在很多场景里，比如软件 Agent、各种智能终端、机器人、车载系统等等。

从数据来看，美国语音交互已经连续十个季度保持 10%—15%的稳定增长。虽然短期没有像视频生成那样爆发，但长期一直在稳步增长。这是一个巨大的市场机会。

智客ZhiKer：未来三五年希望 VUI Labs 发展成什么样？

梅杰：我们的愿景就是让 voice user interface 梦想成真。我们希望在未来 VUI 时代，成为最重要的基础设施公司之一。

从规模角度，我们预期三年内做到 3000 万美金的 ARR。我们现在 TTS 产品刚上线第一个月就有 200 万收入了，整体需求还是很大的。

关键是要在这个蓬勃发展的市场里找到一个精准的定位,既能够避开巨头的竞争，又能在这个里面很好地成长起来。

我们希望能够成为新时代最强的全球化语音交互公司，成为这个新时代的全球化的“科大讯飞”。（作者｜郭虹妘，编辑｜陶天宇）

更多对全球市场、跨国公司和中国经济的深度分析与独家洞察，欢迎访问 Barron's巴伦中文网官方网站

对话VUI Labs梅杰：语音延迟仅1.4秒，国产版“Wispr Flow”｜AI Founder请回答

▎以下为与梅杰的对话全文，略有删减：