金融机构每年在金融犯罪合规工作上的投入高达2060亿美元,其中大部分资金都消耗在手动梳理扁平文档里的各类关联信息上。LandingAI黑客松项目「ArthaNethra」展示了一套从PDF文档到可查询、可溯源、可推理知识图谱的完整转化流程:上传→ADE提取→归一化→双库索引→风险检测。
具体流程细节如下:上传阶段,文档会被发送至/api/v1/ingest接口,系统随即分配唯一ID并记录存储路径;提取环节采用LandingAI ADE工具将内容转化为结构化Markdown格式,对于15MB以上的大文件,则通过异步任务结合指数退避机制处理;归一化步骤会根据文档类型匹配对应的解析器——发票、贷款协议、合同等文档采用无LLM的确定性解析方式,10-K报告、MD&A(管理层讨论与分析)则结合Claude Haiku模型与正则表达式处理,必要时会升级到Claude Sonnet;索引环节将实体数据存入Weaviate向量数据库,关系数据存入Neo4j图数据库,文本内容按500词分块、100词重叠处理,并通过all-mpnet-base-v2模型完成向量化;风险检测则融合4条阈值规则与LLM异常扫描两种方式。
知识图谱的设计包含10类实体(如Company、Subsidiary等),26种规范关系被划分为金融、运营、治理、交叉引用四大类;为避免关系碎片化,项目设置了同义词归一化层,可将40余种关系别名映射到26种规范类型;每条实体与关系都附带文档来源、页码、章节等引用元数据。
双库架构各有侧重:Weaviate数据库负责支持语义相似性查询(例如查找涉及covenant违约的文档),Neo4j则擅长多跳关系遍历(比如追溯Company X到Vendor Y的关联路径)。该项目由Meng Shao于2026年5月31日在X平台分享,LandingAI也同步发布了相关技术文章。






快报