7毫秒、11种语言、350M参数:Liquid AI给多语言RAG装上"小钢炮"

2026.06.19 20:19
Liquid AI 于2026年6月18日发布两款350M参数多语言检索模型——LFM2.5-Embedding-350M(密集双编码器)与LFM2.5-ColBERT-350M(后期交互)。它们在NanoBEIR多语言检索和MKQA-11跨语言问答基准上超越参数规模近两倍的Qwen3-Embedding-0.6B,且端侧推理延迟低至7.3毫秒。本文拆解其双向架构改造、三阶段训练策略与边缘部署前景,并解读这家以"液体神经网络"闻名的MIT孵化公司为何选择此时切入检索赛道。

2026年6月18日,Liquid AI在其官方博客上悄然挂出了一篇更新。没有高调的发布会,没有硅谷大佬的转发造势。但关注检索基础设施的人一眼就能看出这篇文章的分量——它意味着Transformer生态之外又多了一个值得认真对待的选项。

Liquid AI发布了两款新的检索模型:LFM2.5-Embedding-350MLFM2.5-ColBERT-350M。两者均拥有3.5亿参数,基于今年3月发布的LFM2.5-350M-Base基座模型构建,是LFM家族首次推出的双向编码器成员。它们支持11种语言的检索与跨语言搜索:阿拉伯语、德语、英语、西班牙语、法语、意大利语、日语、韩语、挪威语、葡萄牙语、瑞典语。

两款模型共享同一骨干架构,但对文本的表示方式截然不同。

LFM2.5-Embedding-350M是密集双编码器。它将每篇文档压缩为一个1024维的单一向量。当检索速度优先、索引规模需要最小化时,这是首选方案——运行在MacBook Pro M4 Max上,查询编码仅需7.3毫秒

LFM2.5-ColBERT-350M则采用后期交互架构。它将每个token编码为独立的128维向量,而非把整篇文档压成一个向量。这使得模型能在词级进行精细匹配,精度更高、泛化能力更强。代价是索引体积更大。其查询长度限制为32 tokens,还可作为重排序器使用——在不建索引的情况下对首轮检索结果进行精排。查询编码+MaxSim匹配的全链路延迟为8.2毫秒

两者都面向短文本检索场景:产品目录、FAQ知识库、技术支持文档是典型用例。Liquid AI明确将这两款模型定位为现有RAG管线的即插即用替代品。模型以LFM Open License v1.0发布在Hugging Face上,并提供了GGUF变体以支持llama.cpp。

Liquid AI不是一个普通的初创公司。它由MIT孵化,CEO Ramin Hasani领导的团队以"液体神经网络"闻名——一种动态调整参数的架构,与传统Transformer的固定权重路径截然不同。2024年12月,这家公司完成了2.5亿美元A轮融资,估值达23.5亿美元,由AMD Ventures领投。2025年营收达到1320万美元。

一家以"反Transformer"标签闻名的公司,现在发布了一个可以无缝接入LangChain和LlamaIndex的检索模型。这背后是一场精心计算的技术动作,而非心血来潮。

两处补丁,架构大变

因果解码器对检索任务有一个结构性劣势。在LFM原始的因果设置中,每个token只能关注自身和前面的token。这对从左到右的文本生成是理想设计,但对检索来说不够充分——检索需要每个token感知完整的上下文,包括左右两侧的信息。

Liquid AI的改造方案保持了工程上的克制。他们只对LFM2架构做了两处补丁

  • 将因果注意力掩码替换为双向掩码,使每个token可同时关注左右上下文
  • 将LFM2的短卷积改为非因果模式,让局部信息在token两侧对称混合,而非仅来自过去

这保留了LFM2骨干架构的计算效率,同时产出了检索所需的完整上下文表示。每个模型共17层:10层卷积、6层注意力、1层池化或密集层。上下文长度达32,768 tokens(尽管文档训练以512 tokens为主)。

从共享的双向编码器出发,两款模型仅在输出层分岔:Embedding模型使用CLS风格池化输出单一1024维向量;ColBERT模型保留每token 128维嵌入用于MaxSim后期交互。

这套思路的核心工程价值在于——不需要从头预训练一个双向模型,而是在一个已有的大规模预训练基座上做定向适配。训练成本和时间门槛都大幅降低。

碾压600M对手的350M小模型

Liquid AI在两个评测基准上验证了效果。

NanoBEIR多语言检索(NDCG@10):LFM2.5-ColBERT-350M以0.605领先所有同类模型,较上一代LFM2-ColBERT-350M(0.540)提升12%。LFM2.5-Embedding-350M以0.577紧随其后。对比之下,Qwen3-Embedding-0.6B——参数规模接近两倍——得分为0.556。Alibaba的gte-multilingual-base为0.528。BAAI的bge-large-en-v1.5仅为0.359。

MKQA-11跨语言开放域问答(Recall@20):ColBERT以0.694居首,Embedding以0.691几乎持平。Qwen3-Embedding-0.6B为0.638。

更关键的是,这些优势不是只在英语上。从阿拉伯语到日语,从韩语到挪威语,两款模型在全部11种语言上表现得"一致性强"——德语0.606、日语0.614、韩语0.590、挪威语0.570,没有一个语言的得分出现断崖式下滑。这意味着它们的多语言泛化能力不是靠凑巧获得,而是来自训练策略的系统性设计。

训练采用三阶段配方:大规模英语对比预训练 → 多语言和跨语言蒸馏(从强教师模型)→ 困难负样本精调。Embedding模型比ColBERT接收了略多的跨语言数据——理由是后期交互架构本身更自然地支持跨语言检索,额外监督的边际收益较有限。

训练数据融合了内部数据和开源英语检索数据集,对查询和文档的LLM翻译用于扩展第二、三阶段所需的多语言和跨语言配对标。

边缘部署:把亚10毫秒推理装在口袋里

延迟数据同样惊艳。

MacBook Pro M4 Max FP16环境下:Embedding模型查询编码7.3毫秒(p50);ColBERT模型查询编码+MaxSim匹配8.2毫秒;文档向量未预计算时的全链路为34.3毫秒。

H100 BF16企业级环境下更是低至1–2.5毫秒级:Embedding查询1.5毫秒;ColBERT查询1.3毫秒;ColBERT全链路(含MaxSim)2.5毫秒。

Liquid AI还发布了GGUF变体以支持llama.cpp,意味着这些模型可以直接在CPU和边缘设备上运行。一个350M参数的检索模型可以部署在笔记本电脑甚至物联网终端上,同时保持足以匹敌云端大模型的检索质量。

一封写给Transformer生态的投诚信

表面上看,发布两个检索模型只是一次常规技术更新。但从商业战略角度看,这是Liquid AI从模型层向基础设施层的一次关键跨越。

Liquid AI的液体神经网络架构一直被视为Transformer的替代路线。但Transformer生态已经生长出了RAG、Agent、Tool-Use等一整套基础设施。即使Liquid的语言模型在某些基准上表现优异,缺乏配套的检索和工具生态会让它始终停留在"实验室里好看的模型"阶段。

通过发布Embedding和ColBERT模型,Liquid AI向市场传递了两个信号。

第一,我不做封闭花园。两款模型兼容sentence-transformers、HuggingFace Transformers等主流框架,可无缝接入现有RAG管线。开发者在LlamaIndex、LangChain生态中可以直接用Liquid的模型替换OpenAI Embedding或BGE。这降低了技术决策者的转换成本。

第二,我在给边缘AI铺路。350M参数+亚10毫秒推理+CPU/边缘兼容=RAG不再需要云端GPU。如果把LLM的推理也放在端侧,那从检索到生成的全边缘RAG就逻辑自洽了。这正是Liquid AI自创立以来"计算效率优先"路线的终极落点。

不过,这一定位也有隐忧。

开源嵌入模型领域的竞争已经白热化。Qwen3-Embedding、BGE、GTE、Jina Embeddings等都在快速迭代。Liquid AI的产品虽然有架构差异化的优势,但嵌入模型本身很难形成长期壁垒——一旦竞品在基准上追平,转换成本几乎为零。Liquid AI目前也缺少自己的向量数据库和完整的RAG框架集成工具。虽然兼容sentence-transformers降低了接入门槛,但要构建完整的企业级RAG方案,用户仍需拼装多家产品。

更重要的是,开源嵌入模型本身很难直接变现。Liquid AI当前的1320万美元年收入主要来自企业授权和服务。发布检索模型更像是为LFM大模型生态铺路——让更多开发者先"用上"Liquid的产品,再引导至高端企业服务。

这条从开源到商业化的路,走通需要时间和口碑积累。

小模型的大机会

Liquid AI选择了一个聪明的时间窗口入场。

RAG从2024年起成为企业部署大模型的主流范式,但检索层长期被OpenAI Embedding、Cohere、BGE等少数模型主导。市场需要更多开源选项,尤其是能够在边缘设备上运行的轻量级多语言模型。

LFM2.5-Embedding-350M和LFM2.5-ColBERT-350M不是革命性的突破——它们在已知的技术路线上做了扎实的工程优化。但正是这种"把已知架构做到位"的能力,加上11种语言覆盖、亚10毫秒延迟、开源License、三阶段训练配方,让它们成为目前市场上最均衡的多语言检索小模型。

当所有大模型公司都在卷千亿参数时,Liquid AI用两个350M参数的检索模型证明了一件事:找到正确的东西,比生成更大的东西更有价值。检索,是AI最被低估的瓶颈,也是最被忽视的入口。

作品声明:内容由AI生成