缩减6倍AI内存、闪迪美光下挫:拆解谷歌TurboQuant背后的软硬件博弈

AGI
可能刺激AI多模态应用在企业端和消费端的规模化铺开。

美东时间3月24日,谷歌研究院(Google Research)发布了一项名为TurboQuant的免训练(training-free)AI内存压缩算法。

官方技术文件显示,该算法能够在不损失模型精度的前提下,将大语言模型推理阶段的键值缓存(KV Cache)内存占用缩减至少6倍,并在特定基准测试中相较32位未量化模型实现最高8倍的性能提升。这项极度压缩技术,直接改变了大型AI模型在显存资源调配上的技术预期

技术发布的连锁反应迅速传导至资本市场。周三美股交易时段,存储芯片板块出现整体下挫,闪迪一度大跌6.5%,美光科技跌幅约4%,希捷科技跌超5%。

市场情绪的短期波动主要源于单一维度的推演:若底层算法能将上下文内存需求大幅缩减,现阶段价格高昂且供不应求的高带宽内存(HBM)及企业级存储芯片的长期出货量预期可能会面临修正

PolarQuant与QJL的协同机制

TurboQuant的核心突破在于解决了传统向量量化过程中伴随的内存额外开销问题。传统方案为了保证精度,往往需要为每个数据块额外存储全精度的量化常数。该算法采取了两阶段处理架构:

首先,利用PolarQuant技术进行主体压缩。该方法放弃了传统的笛卡尔坐标系,将数据向量转换为极坐标,把数据分离为代表强度的半径和代表方向的角度。这种几何结构的简化彻底消除了传统方法的额外内存开销。

随后,引入量化约翰逊-林登施特劳斯(QJL)算法作为数学误差校正层。TurboQuant使用极低位宽(仅1 bit)对第一阶段留下的微小误差套用QJL算法,消除偏差以确保最终注意力分数的精准。

测试数据显示,在此机制下,TurboQuant能够将KV缓存压缩至3.5比特甚至3比特,在“大海捞针”(Needle In A Haystack)等长文本基准测试中,依然保持了100%的检索召回率。同时,其“数据无感知”(data-oblivious)特性使其无需进行特定的预处理或微调即可直接部署。

参照系差异与权重的刚性需求

在评估该算法的实际商业穿透力时,需剥离理论数据的极限值。一方面,谷歌声称的“最高8倍性能提升”是建立在与未量化的32位(32-bit)基础数据相对比的前提下。而在当前实际的推理产业环境中,16位乃至8位、4位量化已广泛普及,生产环境中的绝对效率跃升幅度将低于官方的基准对比数据。

另一方面,算法的作用域具有严格限定。TurboQuant仅针对推理阶段的KV缓存生效,它有效缓解了超长上下文带来的显存线性增长问题,但并不压缩模型权重(Model Weights)本身的物理显存占用。这意味着,该算法能让同等显存容量的GPU支撑更长的上下文对话或更高的并发吞吐量,但依然无法改变部署千亿参数大模型时对底层硬件容量的基本门槛。

从行业视角来看,单次查询的内存开销与推理成本大幅下降,使得边缘侧设备或消费级显卡能够承载此前仅限云端运行的长文本任务。这种软件优化对硬件依赖的对冲,重新定义了AI应用落地的成本曲线。

从宏观算力供需关系推演,这也可能引发典型的“杰文斯悖论”(Jevons Paradox):

资源利用效率的提升,反而会因使用成本的降低而激发更庞大的长尾应用需求。

TurboQuant降低了长文本推理的存储门槛,可能刺激AI多模态应用在企业端和消费端的规模化铺开。系统并发量的急剧上升,最终带来的全球算力基础设施与存储需求总量,未必会呈现单边缩减。(本文首发钛媒体APP,作者 | 硅谷Tech_news,编辑 | 焦燕)

作品声明:内容由AI生成
本文系作者 硅谷Tech news 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

快报

更多

2026-03-26 23:08

国内商品期货夜盘收盘多数上涨,对二甲苯期货主力合约涨1.95%

2026-03-26 23:07

部分船舶通过伊朗“管控系统”通行霍尔木兹海峡

2026-03-26 23:07

五一视界2025年营收增21%,发布全球首款“物理直觉”世界模型

2026-03-26 23:00

伊拉克南部油田产量暴跌8成

2026-03-26 22:59

华虹公司:2025年净利润3.77亿元,同比下降1.04%

2026-03-26 22:49

日本本州东部远海发生6.3级地震,震源深度10千米

2026-03-26 22:37

华虹半导体拟更名为“华虹宏力”,统一沪港两地证券简称

2026-03-26 22:28

具身智能领域首个行业标准正式发布

2026-03-26 22:27

美国解除对白俄罗斯十余家实体制裁

2026-03-26 22:25

中国国航:2025年净亏损17.7亿元,同比大幅扩大

2026-03-26 22:12

兴业银行:2025年净利润774.69亿元,同比增长0.34%

2026-03-26 22:08

国际奥委会明确:奥运女子组赛事仅限生理女性参加

2026-03-26 22:08

96个中央部门集中向社会公开预算

2026-03-26 21:58

Meta股价触及2025年5月以来最低水平,最新下跌2.6%

2026-03-26 21:51

美团财报电话会:预计Q1餐饮外卖的单均亏损环比优化幅度会好于Q4

2026-03-26 21:42

伊朗通过中间人回应美15点停火提议,提出明确前提条件

2026-03-26 21:41

国台办回应台湾民众党前主席柯文哲一审被判17年

2026-03-26 21:34

纳斯达克中国金龙指数跌超2%

2026-03-26 21:31

美股开盘:三大指数集体低开,芯片存储板块普跌

2026-03-26 21:29

云南铜业:2025年净利润同比下降7.31%,拟10派2.3元

扫描下载App