LandingAI黑客松项目ArthaNethra:从PDF构建金融知识图谱的全流程方案

2026.05.31 09:25
LandingAI黑客松项目ArthaNethra展示从PDF到可查询、可溯源、可推理金融知识图谱的完整流程,解决金融机构合规手动处理高成本问题。方案含上传、提取、归一化、双库索引及风险检测,采用Weaviate+Neo4j双库架构,设计10类实体和26种规范关系,每条数据带引用元数据。

金融机构每年在金融犯罪合规工作上的投入高达2060亿美元,其中大部分资金都消耗在手动梳理扁平文档里的各类关联信息上。LandingAI黑客松项目「ArthaNethra」展示了一套从PDF文档到可查询、可溯源、可推理知识图谱的完整转化流程:上传→ADE提取→归一化→双库索引→风险检测。

具体流程细节如下:上传阶段,文档会被发送至/api/v1/ingest接口,系统随即分配唯一ID并记录存储路径;提取环节采用LandingAI ADE工具将内容转化为结构化Markdown格式,对于15MB以上的大文件,则通过异步任务结合指数退避机制处理;归一化步骤会根据文档类型匹配对应的解析器——发票、贷款协议、合同等文档采用无LLM的确定性解析方式,10-K报告、MD&A(管理层讨论与分析)则结合Claude Haiku模型与正则表达式处理,必要时会升级到Claude Sonnet;索引环节将实体数据存入Weaviate向量数据库,关系数据存入Neo4j图数据库,文本内容按500词分块、100词重叠处理,并通过all-mpnet-base-v2模型完成向量化;风险检测则融合4条阈值规则与LLM异常扫描两种方式。

知识图谱的设计包含10类实体(如Company、Subsidiary等),26种规范关系被划分为金融、运营、治理、交叉引用四大类;为避免关系碎片化,项目设置了同义词归一化层,可将40余种关系别名映射到26种规范类型;每条实体与关系都附带文档来源、页码、章节等引用元数据。

双库架构各有侧重:Weaviate数据库负责支持语义相似性查询(例如查找涉及covenant违约的文档),Neo4j则擅长多跳关系遍历(比如追溯Company X到Vendor Y的关联路径)。该项目由Meng Shao于2026年5月31日在X平台分享,LandingAI也同步发布了相关技术文章。

作品声明:内容由AI生成