AI的隐秘代价：2.6万学生追踪两年，暴露作业繁荣下的考试坍塌

一项覆盖中国中部某县2.6万名中学生、追踪30个月的panel数据揭示：使用AI后作业完成时间缩短30%，得分提升18%，但闭卷考试分数下降20%，高利害大考拖两年才完全暴露18-24%的真实损失。81%长期用户实为外包思考。AI不摧毁学习，它让学得很好和真正学会之间的鸿沟变得前所未有地大。

两年。AI侵蚀学习能力的完整潜伏期，整整两年。

一份覆盖中国中部某县2.6万名中学生、追踪30个月的panel数据，刚刚揭开了AI在教育领域最隐蔽的真相：短期的成绩繁荣——作业更快、分数更高——掩盖了两年后才完全浮出水面的认知代价。等它暴露时，中考、高考已经结束了。

这项来自人口超百万的中国中部县的研究，追踪了7至12年级初高中学生在2023年初至2025年中的表现。学生自主使用AI工具的时间各不相同，这一自然实验条件让研究人员得以采用双重差分法识别因果效应。结果表明，AI对学习能力的损害远比此前任何研究所揭示的都更加隐蔽和系统化。

一张分裂的成绩单

使用AI六个月后，学生的作业完成时间从64分钟降至45分钟，作业得分率反而上升了18%。看起来完美。更快，更好，更高效。

但同一批学生，同期闭卷月考的分数平均下滑了20%。

在更具决定性的大考上，下滑需要将近两年才完全显现，幅度达18%到24%。普通月考的冲击半年内就暴露了，但AI对高利害考试的真实影响像一颗延时炸弹。等它引爆时，补救窗口已经关闭。

研究人员特别指出，如果只做短期追踪，几乎不可能发现这一规律。这也解释了为什么此前多数AI教育研究都错过了真正的学习损失——它们的时间窗口太短了。

将学生按使用行为分组后，一个清晰的模式浮现出来。

使用AI超过五个月后，约81%的学生能在50分钟内完成全部作业，速度甚至快于最快的非AI用户。他们拿到了高作业分数，却在考试中崩盘。

研究人员指出，短完成时间、高作业分数、低考试成绩三者的组合，强烈指向一个结论：这些学生不是在用AI辅助学习，而是在把作业外包给AI。AI替他们完成了任务，但没有帮他们学会任何东西。

反例同样存在。那些使用AI却在作业上投入了与非用户相当时间的学生，考试成绩并未下降，作业分数还有提升。AI本身不是问题。关键在于它是否取代了独立思考。

分层数据绘制出一张清晰的受害者画像。

学科差异最大。社会科学受到的冲击最重，下降27%；STEM学科22%；英语17%；语文仅9%。这意味着此前大量聚焦数学、编程和外语的实验很可能系统性地低估了AI的危害。在最依赖文字生成和论述的社科领域，AI的破坏力最为致命。

低年级学生损失更大。初中生下降24%，高中生17%。认知尚未成熟的学生更容易对外部工具形成依赖。

男生高于女生。男生下降21.6%，女生18.4%，主要归因于男生更频繁地使用AI。

成绩最好的学生反而受害最深。前三分之一顶尖学生下降24%，而底部三分之一仅下降16%。优等生恰恰是最依赖深度思考维持优势的群体，AI的外包效应直接掏空了他们的核心竞争力。

剂量效应明显。每周使用AI不超过1小时，考试仅下降约5%；每周超过5小时，降幅高达30%。

如果AI的破坏力如此之大，为什么没有人及时拉响警报？

盲区一：教师只看单一科目。一个老师只教一门课，单科20%的波动并不罕见。只有把所有科目的数据汇集在一起，才能看到系统性下滑。

盲区二：总量被稀释了。该县的年级平均分直到2025年6月才达到约10%的显著偏离。在此之前，使用AI时间足够长的学生比例还太小。

盲区三：学生自己也不知情。独立思考时的大脑努力很容易被误判为学得不够好，而AI带来的轻松完成作业反而制造了掌握了知识的错觉。这是学习体验中最危险的信号失真。

研究人员还给出了一则令人警醒的发现：在AI用户群体中，高于平均的作业分数实际上预测着更差的考试成绩。当作业不再能作为学习效果的有效信号时，整个评价体系都需要重新设计。

这篇研究的发现与多组独立数据高度吻合。

加州大学伯克利分校一项分析了超过50万份成绩的研究显示，自ChatGPT推出以来，写作和编程密集型课程中的A级成绩比例飙升了13个百分点。和本研究一致，所有增长集中在无人监督的作业上，闭卷考试没有明显变化。

Anthropic的一项最新研究发现，使用AI学习编程的参与者在后续知识测试中得分比对照组低17%，且并未节省时间。直接复制AI答案者表现最差，而把AI当作理解工具提问者则没有出现同样的下滑。

瑞士商学院的研究发现AI使用频率与批判性思维能力呈负相关。英美多所大学联合研究则表明，仅需将AI作为答题机器使用10分钟，就能在问题解决能力测试中检测到可测量的下降。

安德烈·卡帕西（Andrej Karpathy，现任Anthropic研究员）曾公开主张，学校应放弃管制AI生成的作业，将分数重心转向课堂闭卷考核。本研究的发现与他的判断完全吻合。当学生知道自己将在无AI环境下被测试时，他们才有动力真正学习。

并非全无希望。研究发现，AI的学习惩罚率从2023年初的约25%下降至2025年中的约16%，即使在固定样本的早期使用者群体中也观察到了这一趋势。这说明学生和教师正在某种程度上的适应。

但损失远未消失。研究人员建议：向学生提供关于AI长期代价的可信信息、增加闭卷考试权重、用完成时间而非作业分数来评估学习效果。

教育改革者需要面对一个根本问题：当AI可以比学生更快、更漂亮地完成任何书面作业时，教育的核心评价手段还剩下什么？

考试的回归不是倒退。它是在AI重构学习方式后，对学会和看起来学会之间那个不断扩大的裂缝，做出的一次必要校准。

AI不会让学习变得更差。它只是让学得很好和真正学会之间的鸿沟，变得前所未有地大。而这个鸿沟，两年后才能被看见。