2026年6月22日,一篇arXiv论文打破了检索增强生成(RAG)赛道一个隐而不宣的默契。
标题很学术——「KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking」——署名来自哈尔滨工业大学(深圳)和深圳环区研究所。但翻开基准测试结果,你很难不注意到一组数字:最小型号Nano仅0.27B参数,在BEIR基准上与阿里Qwen3-Reranker系列站在了同一水平线。而在LMEB基准上,这个0.27B的迷你模型与参数规模7–12B的Embedding模型打得有来有回。
参数差了几十倍,效果却差不多。这不是巧合,是一个全新技术路线的信号。
重排序,RAG链条里最被低估的咽喉
在RAG的「检索→重排序→生成」三段式中,重排序是最容易被忽视却最致命的一环。
Embedding模型做海选——从千万文档中捞出Top-K。大模型做终面——给出最终答案。卡在中间的重排序模型,负责一场「专业笔试」:把那些长得像正确答案、实际上不是的文档筛下去。如果这轮失守,大模型再强也救不回来。
行业对重排序精度的要求越来越高。过去一年半,这条赛道迅速升温:阿里2025年6月推出Qwen3-Reranker系列(0.6B/4B/8B),Jina AI同年9月发布jina-reranker-v3(0.6B,BEIR 61.94 nDCG@10)。但各大玩家挤了进来,却没人能绕开一个结构性死结。
现有重排序模型的底层执行逻辑几乎全是一样的:把查询和候选文档拼接在一起,共同输入模型算分。这种「联合编码」策略精度高,但代价高昂——每个新查询来了,所有候选文档都得重算一次。你无法提前把文档表征存起来,因为文档必须随时和查询手牵手进入计算。
这意味着两件事:第一,在线推理计算量与查询量成正比增长,系统吞吐量上不去;第二,文档预计算+缓存这一最基础的工程优化手段被堵死了。
一条替代路线一直存在——ColBERT(2020年)为代表的「后期交互」(Late Interaction),通过将查询和文档的编码彻底解耦来换取效率。但解耦的代价也很清楚:后期交互只做Token级相似性计算,放弃了查询-文档之间的精细交互,精度天花板明显。
行业就这样僵住了。
FBNL:一个Encoder-Decoder架构如何同时拿到精度和效率
「不可能三角」的破解者
在重排序领域,长期存在一个「不可能三角」:精度高靠交互充分(Cross-Encoder),效率高靠计算解耦(ColBERT),灵活部署靠独立预计算文档表征。传统Cross-Encoder能选精度,但要牺牲后两者。ColBERT能选效率,但精度有天花板。行业默认三者不能全占。
KaLM-Reranker-V1的Fast But Not Late Interaction(FBNL)从命名上就在传递核心立场:我比ColBERT还快,但精度不输Cross-Encoder。
三层架构
FBNL建立在Encoder-Decoder架构之上,但与传统用法完全不同。
第一层:Encoder做文档压缩存储。 Encoder专门负责编码文档表征,并通过Matryoshka Embedding Pooling(套娃式嵌入池化)进行多层压缩。一个向量表征内部嵌套多个不同粒度的子表征,部署时可根据计算预算动态选择从第几层「切开」使用。论文数据表明:即便将文档压缩到原始表征的1/32(压缩比r=32),在MIRACL 18种语言上的平均nDCG@10损失仍然极其有限。
第二层:Decoder轻量化处理查询。 Decoder接收经过筛选的文档上下文、用户指令和查询意图。查询通常只有几十个Token,计算开销天然很轻。
第三层:Cross-Attention建立交互桥梁。 在Decoder的查询上下文和Encoder的压缩文档表征之间通过Cross-Attention实现相关性建模。关键创新在于——文档表征已经离线预计算并存储好了,查询只需要「读」它们,不需要重新算它们。
论文给出了时间复杂度分析:假设压缩比r=32,Nano(0.27B)的相对在线计算成本为1.0x基准,Small(1B)约5x,Large(4B)约20x。这个「成本」只计算在线阶段的查询处理和交叉注意力,不包含做一次、永不重复的离线文档编码。
参数效率的降维打击
KaLM-Reranker-V1最刺眼的数据不在绝对值,而在参数效率。0.27B的Nano在BEIR上与阿里Qwen3-Reranker系列同档位,在LMEB上竞争7–12B的Embedding模型。1B的Small对标Qwen3-Reranker-4B区间,4B的Large追赶Qwen3-Reranker-8B区间。
这不是魔法,是架构优势。密集Embedding模型用一个固定维度的单向量压缩整篇文档,信息损失随维度压缩线性增加。而KaLM经过Matryoshka压缩后仍保留多层表征,在重排序场景下自然保有优势。
竞品坐标系
Qwen3-Reranker采用Decoder-only联合编码,精度一流但无法预计算文档表征。8B版本纯精度确实占优,但每秒上千次查询的在线推理成本是一个现实门槛。
Jina Reranker v3提出「Last But Not Late」交互,0.6B参数BEIR 61.94。它将查询和所有文档放入同一因果注意力窗口,允许文档互相关注——listwise排序场景中有明显优势。但它同样无法预计算文档表征。
ColBERT作为Late Interaction的始祖,Token级相似性计算效率极高,但交互信号粒度不够。FBNL的Cross-Attention在理论上拥有更丰富的交互建模能力。
KaLM-Reranker-V1是唯一从架构层面支持动态精度-效率调节的模型。部署方可在运行时通过调节压缩比切换计算预算——从1/32到无压缩,按需缩放。别的模型要么固定高精度模式要么固定高效率模式,FBNL在同一套模型上做模式切换。
「解耦」将成为RAG基础设施的下一轮关键词
KaLM-Reranker-V1触碰的比「某个新模型」更大的趋势——AI基础设施正在从「全在线」向「离线预计算+在线轻推理」迁移。
在大型RAG系统中,文档集合相对稳定,查询是高频变化的。如果能离线预计算所有文档的压缩表征,在线阶段只需处理查询和交叉注意力,整个系统的吞吐量和延迟上限会迎来质的提升。这条逻辑在Embedding层面已经走通——向量数据库提前编码存储文档向量,在线只做相似性搜索。KaLM-Reranker-V1把它复刻到了重排序层。
受益方:中小型RAG服务商和端侧部署场景,能用低一个数量级的计算资源获得接近顶级的重排序质量。多语言搜索系统也会受益——MIRACL上的表现说明,即使没有大规模多语言训练数据,FBNL的跨语言泛化能力仍可接受。
承压方:单纯依靠模型规模Scale的重排序路线。「参数越大越好」的逻辑在重排序场景受到挑战——当0.27B模型能肩比几十倍更大的模型时,Scaling Law的边际效益问题变得刺眼。
也该说说局限。论文明确标注为Work in Progress。FBNL的Cross-Attention偏向查询-文档单向交互,缺乏Jina v3那种文档之间互相关注的能力,在需要综合对比多个候选文档的场景中有短板。推理效率分析基于时间复杂度推导而非端到端实测延迟。极度复杂多跳推理条件下的精度上限也尚未充分验证。
在AI基础设施的每一层,「解耦」都在成为对抗Scaling Law边际效益递减的新武器。KaLM-Reranker-V1不是始作俑者,但它用0.27B参数证明了一件事:先把文档算清楚,比每次都拉着查询一起算,更接近重排序的终极答案。






快报