Google PAT审了4700篇论文,学术造假的照妖镜终于来了?

2026.07.03 13:24
Google Research发布Paper Assistant Tool(PAT),一个基于inference scaling的多智能体审稿框架。在SPOT基准测试中,数学错误检测召回率从55.2%提升至89.7%,并在STOC和ICML两大顶会完成4700篇论文的实战检验。当耿同学用业余时间掀翻多位学术大佬,当AI顶会投稿量三年翻三倍,AI从写论文转向审论文的转折点,或许已经到来。

2026年4月,一位名叫耿同学的中国退学博士生,在B站上发了一条视频。他没有蹭任何热点、没有做任何特效,只是把几篇《自然》期刊论文的原始数据下载下来,逐行核对。然后发现了一个惊人的事实:这些发表在全世界最顶级学术期刊上的论文,数据造假之拙劣,以至于“但凡认真一点,把数据编得像个真实数据的样子都不会被发现”。

这条视频引发的风暴迅速席卷了中国学术界。同济大学院长被免职,南开大学院长被调查,中山大学杰青被举报。一个退学博士生,用业余时间和公开数据,掀翻了多位身居要职的学术大佬。

耿同学在采访中说了一句令人深思的话:“同行评议说到底看的是论文的创新性,审稿人对可靠性虽然也会评估,但标准往往很模糊。”

不是审稿人不尽责,而是整个审稿制度本身,就没有为数据真实性核查这个环节设计有效的机制。一篇论文可能被几万人读过,但只要审稿人和编辑都默认相信作者,造假就可以畅通无阻地登上《自然》正刊。

这个制度性漏洞存在了几十年。直到今天,Google出手了。

Google PAT是什么

2026年6月,Google Research团队在arXiv上发布了一篇论文——《Towards Automating Scientific Review with Google's Paper Assistant Tool》。论文的核心成果是一个名为PAT(Paper Assistant Tool)的AI审稿框架。它不是用来写论文的,而是用来审论文的。

与市面上已有的论文辅助工具不同,PAT不是简单地让大模型读一遍论文然后给建议。它是一个多智能体框架:先将论文分段处理,对证明环节分配更多算力、对引言部分分配较少算力,再通过inference scaling技术进行多轮深度推理,最终输出一份包含理论推导验证、实验结果检查、潜在问题标记的综合审稿报告。

核心性能数据:在SPOT基准测试(收录了包含已确认错误的真实论文)上,零样本Gemini 3.1 Pro的数学错误检测召回率为55.2%,而PAT达到了89.7%。提升了34个百分点。

这意味着什么?在数学和理论计算机科学领域,每10个有问题的数学推导,PAT能揪出将近9个。而此前,这些推导需要人类审稿人花几天甚至几周时间逐行验证。

4700篇论文的实战检验

PAT不是停留在预印本上的概念验证。它已经在两个顶级计算机科学会议上进行了实战部署。

STOC 2026(理论计算机科学顶会)在2025年11月启动试点,PAT作为预提交工具免费提供给作者使用。作者在提交论文前,可以先把论文喂给PAT,获得自动化前置审稿反馈。ICML 2026(机器学习顶会)在2026年1月启动,规模更大。两个会议累计处理了超过4700篇稿件。

结果令人惊讶。STOC的受访作者中97%表示愿意再次使用PAT;ICML的受访作者中92.1%表示愿意再次使用PAT。更值得注意的是,ICML有31%的受访作者根据PAT的反馈开展了新的实验。

这个数字需要认真看待。31%的作者因为AI的审稿意见决定做新实验——这说明PAT发现的不是可改可不改的小问题,而是威胁到论文核心结论的实质性缺陷。

AI角色的关键转折:从生产者到质检者

过去两年,AI在学术界的角色主要是生产力工具:辅助写代码、辅助写论文、辅助做实验。学生用ChatGPT润色语言、用Copilot写代码、用各种AI工具加速实验。这些工具降低了产出的门槛,但也间接导致了论文数量的爆炸式增长。

Google论文中给出了一组触目惊心的数据:ICLR、ICML、NeurIPS三大AI顶会的合计投稿量,从2023年的23838篇增长到2024年的32628篇,再到2025年的45354篇。论文预测2026年将达到73883篇。

三年翻三倍。而审稿人的数量并没有翻三倍。

这还不是全部。随着AI辅助写作工具的普及,论文中出现了大量AI痕迹。Google引用数据指出,早在2024年,计算机科学arXiv摘要中至少有17.5%带有AI生成的证据;在特定生物医学子语料中,这一比例高达40%。

当AI在加速生产、而人类在缓慢审阅,学术出版的天平已经严重失衡。

这就是PAT出现的根本逻辑:不是Google想做审稿工具,而是审稿制度本身已经无力承受当前的论文洪流。用AI来加速验证,是系统性的必然选择。

为什么是数学和理论CS

PAT选择以数学错误检测作为突破口,并非偶然。

数学和理论计算机科学论文的核心是证明。一篇论文的正确性不取决于实验数据的可重复性,它取决于每一步推导在逻辑上是否严谨。这意味着错误是可验证的,标准是客观的,而审稿成本极高——验证一篇理论CS论文的证明,人类审稿人可能需要数天时间逐行推敲。

SPOT基准测试的精妙之处在于,它收录的是真实发表后被发现错误、最终被勘误或撤稿的论文,不是人工制造的合成错误。PAT面对的是真实世界中存在的、连人类审稿人都放过去的错误。在这个基准上把召回率从55.2%拉到89.7%,说明AI已经具备了在特定领域超越人类审稿人的能力,至少在错误检测这个维度上。

不能回避的风险与局限

Google论文本身对局限性保持了罕见的坦诚。

误报是首要问题。AI可能错误地将正确的证明判定为有问题的。论文明确承认存在“由于推理失败或模型理解错误而错误声称证明或论证不正确”的风险,但没有报告错误标记有效证明的具体频率。这是一个关键的数据空白。

其次是认知自满的风险。如果审稿人知道AI已经筛过一遍了,是否会降低自己的审查标准?论文将此称为“人类审稿人的去技能化风险”。此外还有对抗性攻击的可能:一旦作者知道了AI的审稿标准,就可以针对性地优化论文来绕过检测。算法偏见、满意度不等于准确性等挑战同样存在。

截至今天,PAT仍然是一个作者的预提交自检工具,不是取代人类审稿人的自动评审系统。Google的四级AI审稿参与度分类框架将PAT定位在最低级别——作者在提交前自己运行的工具,决策权完全在人类手中。

耿同学风暴的启示:AI打假的真正价值

耿同学的打假能成功,靠的是什么?靠的是把原始数据全部下载下来,逐一比对。这是一项极其枯燥、耗时、需要高度专注的机械性劳动。他在采访中说,自己的群友们“午休时打开群看看消息、闲着没事回两句”。这些打假行动是业余的、碎片化的、靠个人热情维系的。

但如果有一个AI工具可以自动完成数据异常检测呢?耿同学自己提到过,他的打假方法论已经升级:从过去主要揭露图片造假(可以辩解为误用),转向数据异常和PS痕迹检测(无法用误用解释)。这正是PAT这类工具最擅长的领域——自动化地、系统性地、不知疲倦地,检查每一个数据点、每一行推导、每一张图片。

想象一下:一个类似PAT的工具被应用到生命科学领域的论文审稿中,自动检测Western blot条带是否有PS痕迹、统计小数点后分布是否异常、检查数据集的随机性是否符合概率分布。耿同学要花几周才能发现的造假,AI可能在几分钟内标记出来。

这不是科幻。这是PAT已经在数学领域做到的事情。

审稿会成为AI的下一个主战场吗

Google PAT的出现标志着AI在学术界角色的一次重要转折:从内容生产者,到质量管控者。

这不是孤例。OpenAI、Anthropic都在探索类似方向。学术出版巨头Elsevier已经在用AI辅助查重和数据验证。arXiv社区正在讨论如何用AI提升预印本的质量筛选。

但在笔者看来,审稿AI化面临的最大障碍可能不是技术,而是制度。

学术出版是一个根深蒂固的人治系统。发表论文意味着获得学术界的认可,这种认可是基于“某某教授审了你的稿子”这个事实的。如果部分审稿工作交给AI,谁为AI的判断负责?当论文被AI错误拒绝时,作者的申诉机制是什么?当AI的错误判断影响到学者职称晋升、基金申请时,谁来承担后果?

这些问题没有简单的答案。但Google的做法给出了一条务实路径:从Level 1开始,让AI成为作者的助手,而不是审稿人的替代品。先让AI帮作者自查,再逐步扩展其角色。

对于中国学术界而言,2026年的耿同学风暴和Google PAT几乎同时出现,提供了绝佳的契机。如果能在AI辅助审稿工具的开发和应用上走在前列,不仅可以提升国内学术论文的质量,更可以在国际学术出版标准制定中占据话语权。

当然,无论AI发展到什么程度,最终还是要人来把关。但方向已经很明确了:在学术泛滥的今天,AI不再是问题的制造者,也开始成为问题的解决者。

写论文的AI越强,审论文的AI就必须更强。否则学术出版这座大坝,迟早会被自己制造的洪流冲垮。这个循环,才刚刚开始。

作品声明:内容由AI生成