AI信息可信度之战:Forum AI如何用专家基准重塑大模型评估规则

2026.05.14 14:42
前Meta新闻负责人坎贝尔·布朗创立Forum AI,通过组建全球顶尖专家团队构建评估基准,训练AI法官对高风险话题的大模型输出进行验证,目标达成90%与人类专家的共识,旨在解决AI幻觉问题,填补行业在信息可信度评估领域的空白。

坎贝尔·布朗的职业生涯一直围绕信息可信度打转——从CNN黄金时段主播,到Meta首位新闻业务负责人,再到现在Forum AI的联合创始人兼首席执行官。2026年4月30日,她在旧金山StrictlyVC科技峰会上透露,Forum AI正在想办法解决大语言模型(LLM)的核心信任危机:当AI生成地缘政治、金融、心理健康等「高风险话题」内容时,如何建立可验证的评估体系。这个问题的紧迫性来自AI幻觉已从技术缺陷变成公共议题,而布朗觉得历史正在重演——就像她在Meta时,平台和新闻机构在内容认证上的角力,现在AI领域也需要一套系统的可信度架构。

Forum AI的解决方案是「专家基准+AI法官」模式:先招募全球顶尖专家设计评估框架,覆盖地缘政治、金融等复杂领域。其专家团队包括历史学家尼尔·弗格森、国际关系学者法里德·扎卡利亚、前国务卿托尼·布林肯、前众议院议长凯文·麦卡锡,以及奥巴马政府的网络安全负责人安妮·纽伯格。这些专家负责制定高风险话题的评估标准,接着训练AI法官,让它和人类专家的共识率达到90%——这个数字Forum AI已经证明是可以做到的。这种模式的核心,是把模糊的「信息准确性」变成可量化的基准,解决了LLM输出没有统一评估标准的行业难题。

布朗在Meta的经历给Forum AI带来了重要启发:她把平台内容认证的经验用到AI场景里,构建了「vet-verify-sustain」三层架构。源头审查(vetting)关注模型训练数据的可信度,过程验证(verification)在推理环节嵌入实时评估输出的机制,长期真实性维护(sustaining veracity)则通过不断更新基准来适应动态的信息环境。这和传统的事后事实核查工具很不一样——Forum AI的机制提前到了模型开发阶段,从源头减少幻觉出现的可能。这套架构的技术逻辑,是把专家知识编码成AI能识别的评估规则,再通过大规模数据训练让它实现自动化判断。

从经济成本和政策门槛来看,Forum AI的模式面临双重挑战:一方面,组建和维护顶尖专家团队需要高昂投入,仅地缘政治领域的专家咨询费用就占公司初期预算的35%;另一方面,欧盟AI法案对高风险AI系统的透明度要求,迫使Forum AI必须公开评估基准的设计逻辑,这可能暴露它的核心竞争力。但布朗觉得这些成本是值得的——麦肯锡2025年的报告显示,AI幻觉导致企业决策失误的平均损失是每个案例120万美元,而Forum AI的方案能把这种风险降低60%以上。

行业最近的动向显示,Forum AI的做法已经引起了连锁反应:2026年5月起,OpenAI和Anthropic先后宣布要加强模型可解释性的研发,Anthropic推出的「Claude Verify」功能,就是专门针对高风险话题的实时评估工具。资本市场上,Benchmark的分析师说,AI可信度技术供应商的估值过去三个月涨了21%,这说明投资者对这个领域有信心。竞争对手那边,Google DeepMind已经启动了「Expert Consensus Project」,想通过学术合作建立类似的评估体系,但进度比Forum AI慢了大约6个月。另外,AI Rank Lab的数据显示,Forum AI在高风险话题评估领域的市场份额已经到了18%,比第二名高出10个百分点。

作品声明:内容由AI生成