Google PAT审了4700篇论文，学术造假的照妖镜终于来了？

Google Research发布Paper Assistant Tool(PAT)，一个基于inference scaling的多智能体审稿框架。在SPOT基准测试中，数学错误检测召回率从55.2%提升至89.7%，并在STOC和ICML两大顶会完成4700篇论文的实战检验。当耿同学用业余时间掀翻多位学术大佬，当AI顶会投稿量三年翻三倍，AI从写论文转向审论文的转折点，或许已经到来。

2026年4月，一位名叫耿同学的中国退学博士生，在B站上发了一条视频。他没有蹭任何热点、没有做任何特效，只是把几篇《自然》期刊论文的原始数据下载下来，逐行核对。然后发现了一个惊人的事实：这些发表在全世界最顶级学术期刊上的论文，数据造假之拙劣，以至于“但凡认真一点，把数据编得像个真实数据的样子都不会被发现”。

这条视频引发的风暴迅速席卷了中国学术界。同济大学院长被免职，南开大学院长被调查，中山大学杰青被举报。一个退学博士生，用业余时间和公开数据，掀翻了多位身居要职的学术大佬。

耿同学在采访中说了一句令人深思的话：“同行评议说到底看的是论文的创新性，审稿人对可靠性虽然也会评估，但标准往往很模糊。”

不是审稿人不尽责，而是整个审稿制度本身，就没有为数据真实性核查这个环节设计有效的机制。一篇论文可能被几万人读过，但只要审稿人和编辑都默认相信作者，造假就可以畅通无阻地登上《自然》正刊。

这个制度性漏洞存在了几十年。直到今天，Google出手了。

Google PAT是什么

2026年6月，Google Research团队在arXiv上发布了一篇论文——《Towards Automating Scientific Review with Google's Paper Assistant Tool》。论文的核心成果是一个名为PAT（Paper Assistant Tool）的AI审稿框架。它不是用来写论文的，而是用来审论文的。

与市面上已有的论文辅助工具不同，PAT不是简单地让大模型读一遍论文然后给建议。它是一个多智能体框架：先将论文分段处理，对证明环节分配更多算力、对引言部分分配较少算力，再通过inference scaling技术进行多轮深度推理，最终输出一份包含理论推导验证、实验结果检查、潜在问题标记的综合审稿报告。

核心性能数据：在SPOT基准测试（收录了包含已确认错误的真实论文）上，零样本Gemini 3.1 Pro的数学错误检测召回率为55.2%，而PAT达到了89.7%。提升了34个百分点。

这意味着什么？在数学和理论计算机科学领域，每10个有问题的数学推导，PAT能揪出将近9个。而此前，这些推导需要人类审稿人花几天甚至几周时间逐行验证。

4700篇论文的实战检验

PAT不是停留在预印本上的概念验证。它已经在两个顶级计算机科学会议上进行了实战部署。

STOC 2026（理论计算机科学顶会）在2025年11月启动试点，PAT作为预提交工具免费提供给作者使用。作者在提交论文前，可以先把论文喂给PAT，获得自动化前置审稿反馈。ICML 2026（机器学习顶会）在2026年1月启动，规模更大。两个会议累计处理了超过4700篇稿件。

结果令人惊讶。STOC的受访作者中97%表示愿意再次使用PAT；ICML的受访作者中92.1%表示愿意再次使用PAT。更值得注意的是，ICML有31%的受访作者根据PAT的反馈开展了新的实验。

这个数字需要认真看待。31%的作者因为AI的审稿意见决定做新实验——这说明PAT发现的不是可改可不改的小问题，而是威胁到论文核心结论的实质性缺陷。

AI角色的关键转折：从生产者到质检者

过去两年，AI在学术界的角色主要是生产力工具：辅助写代码、辅助写论文、辅助做实验。学生用ChatGPT润色语言、用Copilot写代码、用各种AI工具加速实验。这些工具降低了产出的门槛，但也间接导致了论文数量的爆炸式增长。

Google论文中给出了一组触目惊心的数据：ICLR、ICML、NeurIPS三大AI顶会的合计投稿量，从2023年的23838篇增长到2024年的32628篇，再到2025年的45354篇。论文预测2026年将达到73883篇。

三年翻三倍。而审稿人的数量并没有翻三倍。

这还不是全部。随着AI辅助写作工具的普及，论文中出现了大量AI痕迹。Google引用数据指出，早在2024年，计算机科学arXiv摘要中至少有17.5%带有AI生成的证据；在特定生物医学子语料中，这一比例高达40%。

当AI在加速生产、而人类在缓慢审阅，学术出版的天平已经严重失衡。

这就是PAT出现的根本逻辑：不是Google想做审稿工具，而是审稿制度本身已经无力承受当前的论文洪流。用AI来加速验证，是系统性的必然选择。

为什么是数学和理论CS

PAT选择以数学错误检测作为突破口，并非偶然。

数学和理论计算机科学论文的核心是证明。一篇论文的正确性不取决于实验数据的可重复性，它取决于每一步推导在逻辑上是否严谨。这意味着错误是可验证的，标准是客观的，而审稿成本极高——验证一篇理论CS论文的证明，人类审稿人可能需要数天时间逐行推敲。

SPOT基准测试的精妙之处在于，它收录的是真实发表后被发现错误、最终被勘误或撤稿的论文，不是人工制造的合成错误。PAT面对的是真实世界中存在的、连人类审稿人都放过去的错误。在这个基准上把召回率从55.2%拉到89.7%，说明AI已经具备了在特定领域超越人类审稿人的能力，至少在错误检测这个维度上。

不能回避的风险与局限

Google论文本身对局限性保持了罕见的坦诚。

误报是首要问题。AI可能错误地将正确的证明判定为有问题的。论文明确承认存在“由于推理失败或模型理解错误而错误声称证明或论证不正确”的风险，但没有报告错误标记有效证明的具体频率。这是一个关键的数据空白。

其次是认知自满的风险。如果审稿人知道AI已经筛过一遍了，是否会降低自己的审查标准？论文将此称为“人类审稿人的去技能化风险”。此外还有对抗性攻击的可能：一旦作者知道了AI的审稿标准，就可以针对性地优化论文来绕过检测。算法偏见、满意度不等于准确性等挑战同样存在。

截至今天，PAT仍然是一个作者的预提交自检工具，不是取代人类审稿人的自动评审系统。Google的四级AI审稿参与度分类框架将PAT定位在最低级别——作者在提交前自己运行的工具，决策权完全在人类手中。

耿同学风暴的启示：AI打假的真正价值

耿同学的打假能成功，靠的是什么？靠的是把原始数据全部下载下来，逐一比对。这是一项极其枯燥、耗时、需要高度专注的机械性劳动。他在采访中说，自己的群友们“午休时打开群看看消息、闲着没事回两句”。这些打假行动是业余的、碎片化的、靠个人热情维系的。

但如果有一个AI工具可以自动完成数据异常检测呢？耿同学自己提到过，他的打假方法论已经升级：从过去主要揭露图片造假（可以辩解为误用），转向数据异常和PS痕迹检测（无法用误用解释）。这正是PAT这类工具最擅长的领域——自动化地、系统性地、不知疲倦地，检查每一个数据点、每一行推导、每一张图片。

想象一下：一个类似PAT的工具被应用到生命科学领域的论文审稿中，自动检测Western blot条带是否有PS痕迹、统计小数点后分布是否异常、检查数据集的随机性是否符合概率分布。耿同学要花几周才能发现的造假，AI可能在几分钟内标记出来。

这不是科幻。这是PAT已经在数学领域做到的事情。

审稿会成为AI的下一个主战场吗

Google PAT的出现标志着AI在学术界角色的一次重要转折：从内容生产者，到质量管控者。

这不是孤例。OpenAI、Anthropic都在探索类似方向。学术出版巨头Elsevier已经在用AI辅助查重和数据验证。arXiv社区正在讨论如何用AI提升预印本的质量筛选。

但在笔者看来，审稿AI化面临的最大障碍可能不是技术，而是制度。

学术出版是一个根深蒂固的人治系统。发表论文意味着获得学术界的认可，这种认可是基于“某某教授审了你的稿子”这个事实的。如果部分审稿工作交给AI，谁为AI的判断负责？当论文被AI错误拒绝时，作者的申诉机制是什么？当AI的错误判断影响到学者职称晋升、基金申请时，谁来承担后果？

这些问题没有简单的答案。但Google的做法给出了一条务实路径：从Level 1开始，让AI成为作者的助手，而不是审稿人的替代品。先让AI帮作者自查，再逐步扩展其角色。

对于中国学术界而言，2026年的耿同学风暴和Google PAT几乎同时出现，提供了绝佳的契机。如果能在AI辅助审稿工具的开发和应用上走在前列，不仅可以提升国内学术论文的质量，更可以在国际学术出版标准制定中占据话语权。

当然，无论AI发展到什么程度，最终还是要人来把关。但方向已经很明确了：在学术泛滥的今天，AI不再是问题的制造者，也开始成为问题的解决者。

写论文的AI越强，审论文的AI就必须更强。否则学术出版这座大坝，迟早会被自己制造的洪流冲垮。这个循环，才刚刚开始。