AI信息可信度之战：Forum AI如何用专家基准重塑大模型评估规则

前Meta新闻负责人坎贝尔·布朗创立Forum AI，通过组建全球顶尖专家团队构建评估基准，训练AI法官对高风险话题的大模型输出进行验证，目标达成90%与人类专家的共识，旨在解决AI幻觉问题，填补行业在信息可信度评估领域的空白。

坎贝尔·布朗的职业生涯一直围绕信息可信度打转——从CNN黄金时段主播，到Meta首位新闻业务负责人，再到现在Forum AI的联合创始人兼首席执行官。2026年4月30日，她在旧金山StrictlyVC科技峰会上透露，Forum AI正在想办法解决大语言模型（LLM）的核心信任危机：当AI生成地缘政治、金融、心理健康等「高风险话题」内容时，如何建立可验证的评估体系。这个问题的紧迫性来自AI幻觉已从技术缺陷变成公共议题，而布朗觉得历史正在重演——就像她在Meta时，平台和新闻机构在内容认证上的角力，现在AI领域也需要一套系统的可信度架构。

Forum AI的解决方案是「专家基准+AI法官」模式：先招募全球顶尖专家设计评估框架，覆盖地缘政治、金融等复杂领域。其专家团队包括历史学家尼尔·弗格森、国际关系学者法里德·扎卡利亚、前国务卿托尼·布林肯、前众议院议长凯文·麦卡锡，以及奥巴马政府的网络安全负责人安妮·纽伯格。这些专家负责制定高风险话题的评估标准，接着训练AI法官，让它和人类专家的共识率达到90%——这个数字Forum AI已经证明是可以做到的。这种模式的核心，是把模糊的「信息准确性」变成可量化的基准，解决了LLM输出没有统一评估标准的行业难题。

布朗在Meta的经历给Forum AI带来了重要启发：她把平台内容认证的经验用到AI场景里，构建了「vet-verify-sustain」三层架构。源头审查（vetting）关注模型训练数据的可信度，过程验证（verification）在推理环节嵌入实时评估输出的机制，长期真实性维护（sustaining veracity）则通过不断更新基准来适应动态的信息环境。这和传统的事后事实核查工具很不一样——Forum AI的机制提前到了模型开发阶段，从源头减少幻觉出现的可能。这套架构的技术逻辑，是把专家知识编码成AI能识别的评估规则，再通过大规模数据训练让它实现自动化判断。

从经济成本和政策门槛来看，Forum AI的模式面临双重挑战：一方面，组建和维护顶尖专家团队需要高昂投入，仅地缘政治领域的专家咨询费用就占公司初期预算的35%；另一方面，欧盟AI法案对高风险AI系统的透明度要求，迫使Forum AI必须公开评估基准的设计逻辑，这可能暴露它的核心竞争力。但布朗觉得这些成本是值得的——麦肯锡2025年的报告显示，AI幻觉导致企业决策失误的平均损失是每个案例120万美元，而Forum AI的方案能把这种风险降低60%以上。

行业最近的动向显示，Forum AI的做法已经引起了连锁反应：2026年5月起，OpenAI和Anthropic先后宣布要加强模型可解释性的研发，Anthropic推出的「Claude Verify」功能，就是专门针对高风险话题的实时评估工具。资本市场上，Benchmark的分析师说，AI可信度技术供应商的估值过去三个月涨了21%，这说明投资者对这个领域有信心。竞争对手那边，Google DeepMind已经启动了「Expert Consensus Project」，想通过学术合作建立类似的评估体系，但进度比Forum AI慢了大约6个月。另外，AI Rank Lab的数据显示，Forum AI在高风险话题评估领域的市场份额已经到了18%，比第二名高出10个百分点。