谷歌云OKF:标准化知识底座破解企业AI落地数据碎片化难题

2026.06.15 11:07
谷歌云于2024年5月发布开放知识格式OKF,通过标准化知识表示体系解决企业非结构化数据碎片化问题,为AI代理构建高效知识输入体系,提升大模型响应质量,加速生成式AI在企业场景的落地。

在生成式AI向企业场景渗透的过程中,非结构化数据处理始终是绕不开的核心瓶颈。麦肯锡2024年《企业AI转型报告》显示,全球企业数据里有近80%属于PDF、Word、Excel这类非结构化格式,这些数据很难被大模型直接解析,导致AI代理回答业务问题时经常出现信息偏差或错误。比如有家制造业企业直接用未经处理的非结构化文档训练AI客服,结果回答准确率只有65%,远低于行业85%的平均水平。正是在这样的背景下,谷歌云在2024年5月14日的Cloud Next全球大会上推出了开放知识格式(OKF),希望通过一套标准化的知识表示体系,破解企业数据碎片化的困局。

OKF是谷歌云打造的一套统一知识表示框架,核心目标是把企业内部零散的非结构化数据,转化为机器能理解的结构化知识资产。它支持PDF 1.7及以上版本、Microsoft Office 2016+、CSV等常见格式,借助预定义的语义元数据标准,能对文档里的实体、关系和属性做统一标注。拿一份产品手册来说,OKF能自动识别“产品名称”“规格参数”“发布日期”这些实体,还能建立“产品包含规格”“发布日期对应产品”这类关系,最终形成结构化的知识单元。

OKF的核心技术架构由三个关键模块组成:文档解析引擎、语义标注模型和知识图谱整合层。文档解析引擎用的是谷歌云自研的多模态预训练模型,能精准提取文本、表格、图片里的关键信息,解析准确率达到92%;语义标注模型则基于BERT和图神经网络(GNN)技术,能自动识别实体间的语义关系,标注速度比传统工具快40%;知识图谱整合层会把标注好的知识单元映射到谷歌云知识引擎里,支持跨文档、跨部门的知识关联查询。AI代理通过OKF的API接口就能快速调用这些结构化知识,大大缩短了数据预处理的时间。

OKF的推出对企业AI转型意义不小。首先,它能降低企业AI代理的开发成本——谷歌云的测试数据显示,用了OKF后,企业数据预处理时间平均减少50%,AI项目上线周期也缩短了30%;其次,它能提升AI代理的响应质量,有家金融机构试点OKF后,AI风控系统的错误率从18%降到了7%;最后,OKF的开放设计允许企业自定义语义标准,以适配不同行业的业务需求——比如医疗行业就能通过扩展OKF的实体类型,实现病历数据的标准化处理。

最近,企业知识标准化成了AI基础设施领域竞争的焦点。微软Azure在2024年4月升级了Azure Knowledge Graph服务,新增了非结构化文档自动解析功能,解析速度提升了35%;亚马逊AWS也在同一个月推出了Amazon Bedrock的知识底座插件,支持和企业内部知识库的无缝集成。在竞争对手这边,OpenAI和Salesforce合作推出的Einstein GPT知识增强模块,已经在零售行业实现了商品信息的实时更新与查询;百度智能云的文心知识增强平台也在2024年5月优化了非结构化数据处理能力,能支持多语言文档的标准化转换。

作品声明:内容由AI生成