企业级AI信息检索眼下正普遍遭遇多模态内容处理的瓶颈,传统工具大多局限于纯文本解析,没法有效提取PDF里的图表、图片或复杂表格信息,导致关键数据被遗漏。Google近日正式升级Gemini API的文件搜索功能,正是针对这一行业痛点推出了解决方案。
这次升级的核心,是引入基于Gemini Embedding 2模型的多模态RAG(检索增强生成)能力,一举打破了传统文本检索的局限。用户可以上传包含图像、表格的PDF、PPTX等办公文档,或是单独的JPG、PNG图像文件,系统会自动解析其中的多模态信息并进行精准检索。根据Google官方数据,Gemini Embedding 2在多模态检索任务上的准确率比上一代提升了20%,支持超过15种文件格式,包括常见的办公文档和图像类型。
技术层面上,Gemini Embedding 2采用先进的跨模态嵌入技术,能把文本、图像等不同类型的内容转化到统一的高维向量空间里,保证跨模态信息的精准匹配;再结合Gemini大模型的上下文理解能力,就能生成更全面、准确的检索结果。比如,金融机构能用它快速提取财报里的柱状图数据,医疗行业可以高效分析带CT影像的医学文献,法律从业者则能自动识别合同中的表格条款,大大减少信息处理的时间。
这次升级对企业级AI应用意义不小,不仅提升了信息检索的完整性和准确性,还拓展了AI在各行业的落地场景。眼下,多模态RAG已经成为2024年AI领域的核心竞争方向——OpenAI在2024年3月推出的GPT-4 Turbo就支持多模态检索,Anthropic的Claude 3 Opus也能处理图像和复杂文档,多家巨头的布局正推动企业级AI检索技术进入快速迭代期。






快报