LandingAI黑客松项目ArthaNethra：从PDF构建金融知识图谱的全流程方案

2026.05.31 09:25

LandingAI黑客松项目ArthaNethra展示从PDF到可查询、可溯源、可推理金融知识图谱的完整流程，解决金融机构合规手动处理高成本问题。方案含上传、提取、归一化、双库索引及风险检测，采用Weaviate+Neo4j双库架构，设计10类实体和26种规范关系，每条数据带引用元数据。

金融机构每年在金融犯罪合规工作上的投入高达2060亿美元，其中大部分资金都消耗在手动梳理扁平文档里的各类关联信息上。LandingAI黑客松项目「ArthaNethra」展示了一套从PDF文档到可查询、可溯源、可推理知识图谱的完整转化流程：上传→ADE提取→归一化→双库索引→风险检测。

具体流程细节如下：上传阶段，文档会被发送至/api/v1/ingest接口，系统随即分配唯一ID并记录存储路径；提取环节采用LandingAI ADE工具将内容转化为结构化Markdown格式，对于15MB以上的大文件，则通过异步任务结合指数退避机制处理；归一化步骤会根据文档类型匹配对应的解析器——发票、贷款协议、合同等文档采用无LLM的确定性解析方式，10-K报告、MD&A（管理层讨论与分析）则结合Claude Haiku模型与正则表达式处理，必要时会升级到Claude Sonnet；索引环节将实体数据存入Weaviate向量数据库，关系数据存入Neo4j图数据库，文本内容按500词分块、100词重叠处理，并通过all-mpnet-base-v2模型完成向量化；风险检测则融合4条阈值规则与LLM异常扫描两种方式。

知识图谱的设计包含10类实体（如Company、Subsidiary等），26种规范关系被划分为金融、运营、治理、交叉引用四大类；为避免关系碎片化，项目设置了同义词归一化层，可将40余种关系别名映射到26种规范类型；每条实体与关系都附带文档来源、页码、章节等引用元数据。

双库架构各有侧重：Weaviate数据库负责支持语义相似性查询（例如查找涉及covenant违约的文档），Neo4j则擅长多跳关系遍历（比如追溯Company X到Vendor Y的关联路径）。该项目由Meng Shao于2026年5月31日在X平台分享，LandingAI也同步发布了相关技术文章。

作品声明：内容由AI生成