Google Gemini API文件搜索升级:多模态RAG打破检索边界,企业级AI效率再提升

2026.05.11 15:30
近日Google升级Gemini API文件搜索功能,基于Gemini Embedding 2模型突破文本限制,整合图像、表格等多模态内容,实现检索能力跃升。此举助力企业级AI信息检索准确性提升,引发行业竞争加剧。

企业级AI信息检索眼下正普遍遭遇多模态内容处理的瓶颈,传统工具大多局限于纯文本解析,没法有效提取PDF里的图表、图片或复杂表格信息,导致关键数据被遗漏。Google近日正式升级Gemini API的文件搜索功能,正是针对这一行业痛点推出了解决方案。

这次升级的核心,是引入基于Gemini Embedding 2模型的多模态RAG(检索增强生成)能力,一举打破了传统文本检索的局限。用户可以上传包含图像、表格的PDF、PPTX等办公文档,或是单独的JPG、PNG图像文件,系统会自动解析其中的多模态信息并进行精准检索。根据Google官方数据,Gemini Embedding 2在多模态检索任务上的准确率比上一代提升了20%,支持超过15种文件格式,包括常见的办公文档和图像类型。

技术层面上,Gemini Embedding 2采用先进的跨模态嵌入技术,能把文本、图像等不同类型的内容转化到统一的高维向量空间里,保证跨模态信息的精准匹配;再结合Gemini大模型的上下文理解能力,就能生成更全面、准确的检索结果。比如,金融机构能用它快速提取财报里的柱状图数据,医疗行业可以高效分析带CT影像的医学文献,法律从业者则能自动识别合同中的表格条款,大大减少信息处理的时间。

这次升级对企业级AI应用意义不小,不仅提升了信息检索的完整性和准确性,还拓展了AI在各行业的落地场景。眼下,多模态RAG已经成为2024年AI领域的核心竞争方向——OpenAI在2024年3月推出的GPT-4 Turbo就支持多模态检索,Anthropic的Claude 3 Opus也能处理图像和复杂文档,多家巨头的布局正推动企业级AI检索技术进入快速迭代期。

作品声明:内容由AI生成

快报

更多

2026-06-29 23:04

国内期货主力合约夜盘涨多跌少,纯苯、低硫燃料油(LU)涨超2%

2026-06-29 22:50

Strategy改革融资模式,可能出售更多比特币

2026-06-29 22:44

百邦科技大跌超9%,公司回应:业绩不好的情况下,会考虑关闭亏损门店

2026-06-29 22:43

同程旅行拟全面要约收购嘀嗒出行

2026-06-29 22:42

阿曼外交大臣:不支持收取霍尔木兹海峡通行费

2026-06-29 22:38

成都出台食品药品安全全民举报奖励办法,最高奖励100万元

2026-06-29 22:37

兆易创新:公司为无晶圆厂模式,存在上游合作的晶圆厂产能供给进一步紧张的风险

2026-06-29 22:36

美国最高法院裁定美联储理事库克留任

2026-06-29 22:36

Millennium建立人工智能实验室,力求研发应用尖端技术

2026-06-29 22:35

美国最高法院做出历史性判决,扩大总统解职联邦高级官员的权力

2026-06-29 22:19

清溢光电:公司股票价格可能存在短期上涨过快出现的下跌风险

2026-06-29 22:17

王毅会见下任联合国秘书长候选人萨勒

2026-06-29 22:14

广钢气体:国内首个氦气小分子深地存储项目已通过环评公示,该项目尚处于早期建设阶段

2026-06-29 22:13

SpaceX股价转跌,此前曾涨超4%

2026-06-29 22:11

阿曼伊朗联合工作组就霍尔木兹海峡问题举行首次会议

2026-06-29 22:11

“美股七巨头”走高,亚马逊涨超4%

2026-06-29 22:09

英特尔股价跌超6%,总市值至6100亿美元下方

2026-06-29 22:06

蓝箭航天:公司预计最早于2029年实现合并报表盈利

2026-06-29 22:05

费城半导体指数跌幅扩大至1%,此前曾涨超1%

2026-06-29 22:05

日元跌至近40年低位