7毫秒、11种语言、350M参数：Liquid AI给多语言RAG装上"小钢炮"

Liquid AI 于2026年6月18日发布两款350M参数多语言检索模型——LFM2.5-Embedding-350M（密集双编码器）与LFM2.5-ColBERT-350M（后期交互）。它们在NanoBEIR多语言检索和MKQA-11跨语言问答基准上超越参数规模近两倍的Qwen3-Embedding-0.6B，且端侧推理延迟低至7.3毫秒。本文拆解其双向架构改造、三阶段训练策略与边缘部署前景，并解读这家以"液体神经网络"闻名的MIT孵化公司为何选择此时切入检索赛道。

2026年6月18日，Liquid AI在其官方博客上悄然挂出了一篇更新。没有高调的发布会，没有硅谷大佬的转发造势。但关注检索基础设施的人一眼就能看出这篇文章的分量——它意味着Transformer生态之外又多了一个值得认真对待的选项。

Liquid AI发布了两款新的检索模型：LFM2.5-Embedding-350M和LFM2.5-ColBERT-350M。两者均拥有3.5亿参数，基于今年3月发布的LFM2.5-350M-Base基座模型构建，是LFM家族首次推出的双向编码器成员。它们支持11种语言的检索与跨语言搜索：阿拉伯语、德语、英语、西班牙语、法语、意大利语、日语、韩语、挪威语、葡萄牙语、瑞典语。

两款模型共享同一骨干架构，但对文本的表示方式截然不同。

LFM2.5-Embedding-350M是密集双编码器。它将每篇文档压缩为一个1024维的单一向量。当检索速度优先、索引规模需要最小化时，这是首选方案——运行在MacBook Pro M4 Max上，查询编码仅需7.3毫秒。

LFM2.5-ColBERT-350M则采用后期交互架构。它将每个token编码为独立的128维向量，而非把整篇文档压成一个向量。这使得模型能在词级进行精细匹配，精度更高、泛化能力更强。代价是索引体积更大。其查询长度限制为32 tokens，还可作为重排序器使用——在不建索引的情况下对首轮检索结果进行精排。查询编码+MaxSim匹配的全链路延迟为8.2毫秒。

两者都面向短文本检索场景：产品目录、FAQ知识库、技术支持文档是典型用例。Liquid AI明确将这两款模型定位为现有RAG管线的即插即用替代品。模型以LFM Open License v1.0发布在Hugging Face上，并提供了GGUF变体以支持llama.cpp。

Liquid AI不是一个普通的初创公司。它由MIT孵化，CEO Ramin Hasani领导的团队以"液体神经网络"闻名——一种动态调整参数的架构，与传统Transformer的固定权重路径截然不同。2024年12月，这家公司完成了2.5亿美元A轮融资，估值达23.5亿美元，由AMD Ventures领投。2025年营收达到1320万美元。

一家以"反Transformer"标签闻名的公司，现在发布了一个可以无缝接入LangChain和LlamaIndex的检索模型。这背后是一场精心计算的技术动作，而非心血来潮。

两处补丁，架构大变

因果解码器对检索任务有一个结构性劣势。在LFM原始的因果设置中，每个token只能关注自身和前面的token。这对从左到右的文本生成是理想设计，但对检索来说不够充分——检索需要每个token感知完整的上下文，包括左右两侧的信息。

Liquid AI的改造方案保持了工程上的克制。他们只对LFM2架构做了两处补丁：

将因果注意力掩码替换为双向掩码，使每个token可同时关注左右上下文
将LFM2的短卷积改为非因果模式，让局部信息在token两侧对称混合，而非仅来自过去

这保留了LFM2骨干架构的计算效率，同时产出了检索所需的完整上下文表示。每个模型共17层：10层卷积、6层注意力、1层池化或密集层。上下文长度达32,768 tokens（尽管文档训练以512 tokens为主）。

从共享的双向编码器出发，两款模型仅在输出层分岔：Embedding模型使用CLS风格池化输出单一1024维向量；ColBERT模型保留每token 128维嵌入用于MaxSim后期交互。

这套思路的核心工程价值在于——不需要从头预训练一个双向模型，而是在一个已有的大规模预训练基座上做定向适配。训练成本和时间门槛都大幅降低。

碾压600M对手的350M小模型

Liquid AI在两个评测基准上验证了效果。

NanoBEIR多语言检索（NDCG@10）：LFM2.5-ColBERT-350M以0.605领先所有同类模型，较上一代LFM2-ColBERT-350M（0.540）提升12%。LFM2.5-Embedding-350M以0.577紧随其后。对比之下，Qwen3-Embedding-0.6B——参数规模接近两倍——得分为0.556。Alibaba的gte-multilingual-base为0.528。BAAI的bge-large-en-v1.5仅为0.359。

MKQA-11跨语言开放域问答（Recall@20）：ColBERT以0.694居首，Embedding以0.691几乎持平。Qwen3-Embedding-0.6B为0.638。

更关键的是，这些优势不是只在英语上。从阿拉伯语到日语，从韩语到挪威语，两款模型在全部11种语言上表现得"一致性强"——德语0.606、日语0.614、韩语0.590、挪威语0.570，没有一个语言的得分出现断崖式下滑。这意味着它们的多语言泛化能力不是靠凑巧获得，而是来自训练策略的系统性设计。

训练采用三阶段配方：大规模英语对比预训练 → 多语言和跨语言蒸馏（从强教师模型）→ 困难负样本精调。Embedding模型比ColBERT接收了略多的跨语言数据——理由是后期交互架构本身更自然地支持跨语言检索，额外监督的边际收益较有限。

训练数据融合了内部数据和开源英语检索数据集，对查询和文档的LLM翻译用于扩展第二、三阶段所需的多语言和跨语言配对标。

边缘部署：把亚10毫秒推理装在口袋里

延迟数据同样惊艳。

在MacBook Pro M4 Max FP16环境下：Embedding模型查询编码7.3毫秒（p50）；ColBERT模型查询编码+MaxSim匹配8.2毫秒；文档向量未预计算时的全链路为34.3毫秒。

在H100 BF16企业级环境下更是低至1–2.5毫秒级：Embedding查询1.5毫秒；ColBERT查询1.3毫秒；ColBERT全链路（含MaxSim）2.5毫秒。

Liquid AI还发布了GGUF变体以支持llama.cpp，意味着这些模型可以直接在CPU和边缘设备上运行。一个350M参数的检索模型可以部署在笔记本电脑甚至物联网终端上，同时保持足以匹敌云端大模型的检索质量。

一封写给Transformer生态的投诚信

表面上看，发布两个检索模型只是一次常规技术更新。但从商业战略角度看，这是Liquid AI从模型层向基础设施层的一次关键跨越。

Liquid AI的液体神经网络架构一直被视为Transformer的替代路线。但Transformer生态已经生长出了RAG、Agent、Tool-Use等一整套基础设施。即使Liquid的语言模型在某些基准上表现优异，缺乏配套的检索和工具生态会让它始终停留在"实验室里好看的模型"阶段。

通过发布Embedding和ColBERT模型，Liquid AI向市场传递了两个信号。

第一，我不做封闭花园。两款模型兼容sentence-transformers、HuggingFace Transformers等主流框架，可无缝接入现有RAG管线。开发者在LlamaIndex、LangChain生态中可以直接用Liquid的模型替换OpenAI Embedding或BGE。这降低了技术决策者的转换成本。

第二，我在给边缘AI铺路。350M参数+亚10毫秒推理+CPU/边缘兼容=RAG不再需要云端GPU。如果把LLM的推理也放在端侧，那从检索到生成的全边缘RAG就逻辑自洽了。这正是Liquid AI自创立以来"计算效率优先"路线的终极落点。

不过，这一定位也有隐忧。

开源嵌入模型领域的竞争已经白热化。Qwen3-Embedding、BGE、GTE、Jina Embeddings等都在快速迭代。Liquid AI的产品虽然有架构差异化的优势，但嵌入模型本身很难形成长期壁垒——一旦竞品在基准上追平，转换成本几乎为零。Liquid AI目前也缺少自己的向量数据库和完整的RAG框架集成工具。虽然兼容sentence-transformers降低了接入门槛，但要构建完整的企业级RAG方案，用户仍需拼装多家产品。

更重要的是，开源嵌入模型本身很难直接变现。Liquid AI当前的1320万美元年收入主要来自企业授权和服务。发布检索模型更像是为LFM大模型生态铺路——让更多开发者先"用上"Liquid的产品，再引导至高端企业服务。

这条从开源到商业化的路，走通需要时间和口碑积累。

小模型的大机会

Liquid AI选择了一个聪明的时间窗口入场。

RAG从2024年起成为企业部署大模型的主流范式，但检索层长期被OpenAI Embedding、Cohere、BGE等少数模型主导。市场需要更多开源选项，尤其是能够在边缘设备上运行的轻量级多语言模型。

LFM2.5-Embedding-350M和LFM2.5-ColBERT-350M不是革命性的突破——它们在已知的技术路线上做了扎实的工程优化。但正是这种"把已知架构做到位"的能力，加上11种语言覆盖、亚10毫秒延迟、开源License、三阶段训练配方，让它们成为目前市场上最均衡的多语言检索小模型。

当所有大模型公司都在卷千亿参数时，Liquid AI用两个350M参数的检索模型证明了一件事：找到正确的东西，比生成更大的东西更有价值。检索，是AI最被低估的瓶颈，也是最被忽视的入口。