AI的隐秘代价:2.6万学生追踪两年,暴露作业繁荣下的考试坍塌

2026.07.04 18:25
一项覆盖中国中部某县2.6万名中学生、追踪30个月的panel数据揭示:使用AI后作业完成时间缩短30%,得分提升18%,但闭卷考试分数下降20%,高利害大考拖两年才完全暴露18-24%的真实损失。81%长期用户实为外包思考。AI不摧毁学习,它让学得很好和真正学会之间的鸿沟变得前所未有地大。

两年。AI侵蚀学习能力的完整潜伏期,整整两年。

一份覆盖中国中部某县2.6万名中学生、追踪30个月的panel数据,刚刚揭开了AI在教育领域最隐蔽的真相:短期的成绩繁荣——作业更快、分数更高——掩盖了两年后才完全浮出水面的认知代价。等它暴露时,中考、高考已经结束了。

这项来自人口超百万的中国中部县的研究,追踪了7至12年级初高中学生在2023年初至2025年中的表现。学生自主使用AI工具的时间各不相同,这一自然实验条件让研究人员得以采用双重差分法识别因果效应。结果表明,AI对学习能力的损害远比此前任何研究所揭示的都更加隐蔽和系统化。

一张分裂的成绩单

使用AI六个月后,学生的作业完成时间从64分钟降至45分钟,作业得分率反而上升了18%。看起来完美。更快,更好,更高效。

但同一批学生,同期闭卷月考的分数平均下滑了20%

在更具决定性的大考上,下滑需要将近两年才完全显现,幅度达18%到24%。普通月考的冲击半年内就暴露了,但AI对高利害考试的真实影响像一颗延时炸弹。等它引爆时,补救窗口已经关闭。

研究人员特别指出,如果只做短期追踪,几乎不可能发现这一规律。这也解释了为什么此前多数AI教育研究都错过了真正的学习损失——它们的时间窗口太短了。

外包者联盟

将学生按使用行为分组后,一个清晰的模式浮现出来。

使用AI超过五个月后,约81%的学生能在50分钟内完成全部作业,速度甚至快于最快的非AI用户。他们拿到了高作业分数,却在考试中崩盘。

研究人员指出,短完成时间、高作业分数、低考试成绩三者的组合,强烈指向一个结论:这些学生不是在用AI辅助学习,而是在把作业外包给AI。AI替他们完成了任务,但没有帮他们学会任何东西。

反例同样存在。那些使用AI却在作业上投入了与非用户相当时间的学生,考试成绩并未下降,作业分数还有提升。AI本身不是问题。关键在于它是否取代了独立思考。

谁受伤最重?

分层数据绘制出一张清晰的受害者画像。

学科差异最大。社会科学受到的冲击最重,下降27%;STEM学科22%;英语17%;语文仅9%。这意味着此前大量聚焦数学、编程和外语的实验很可能系统性地低估了AI的危害。在最依赖文字生成和论述的社科领域,AI的破坏力最为致命。

低年级学生损失更大。初中生下降24%,高中生17%。认知尚未成熟的学生更容易对外部工具形成依赖。

男生高于女生。男生下降21.6%,女生18.4%,主要归因于男生更频繁地使用AI。

成绩最好的学生反而受害最深。前三分之一顶尖学生下降24%,而底部三分之一仅下降16%。优等生恰恰是最依赖深度思考维持优势的群体,AI的外包效应直接掏空了他们的核心竞争力。

剂量效应明显。每周使用AI不超过1小时,考试仅下降约5%;每周超过5小时,降幅高达30%

三个盲区与一个沉默的系统性危机

如果AI的破坏力如此之大,为什么没有人及时拉响警报?

盲区一:教师只看单一科目。一个老师只教一门课,单科20%的波动并不罕见。只有把所有科目的数据汇集在一起,才能看到系统性下滑。

盲区二:总量被稀释了。该县的年级平均分直到2025年6月才达到约10%的显著偏离。在此之前,使用AI时间足够长的学生比例还太小。

盲区三:学生自己也不知情。独立思考时的大脑努力很容易被误判为学得不够好,而AI带来的轻松完成作业反而制造了掌握了知识的错觉。这是学习体验中最危险的信号失真。

研究人员还给出了一则令人警醒的发现:在AI用户群体中,高于平均的作业分数实际上预测着更差的考试成绩。当作业不再能作为学习效果的有效信号时,整个评价体系都需要重新设计。

全球共振,不是孤例

这篇研究的发现与多组独立数据高度吻合。

加州大学伯克利分校一项分析了超过50万份成绩的研究显示,自ChatGPT推出以来,写作和编程密集型课程中的A级成绩比例飙升了13个百分点。和本研究一致,所有增长集中在无人监督的作业上,闭卷考试没有明显变化。

Anthropic的一项最新研究发现,使用AI学习编程的参与者在后续知识测试中得分比对照组低17%,且并未节省时间。直接复制AI答案者表现最差,而把AI当作理解工具提问者则没有出现同样的下滑。

瑞士商学院的研究发现AI使用频率与批判性思维能力呈负相关。英美多所大学联合研究则表明,仅需将AI作为答题机器使用10分钟,就能在问题解决能力测试中检测到可测量的下降。

安德烈·卡帕西(Andrej Karpathy,现任Anthropic研究员)曾公开主张,学校应放弃管制AI生成的作业,将分数重心转向课堂闭卷考核。本研究的发现与他的判断完全吻合。当学生知道自己将在无AI环境下被测试时,他们才有动力真正学习。

适应进行了,但损失远未消失

并非全无希望。研究发现,AI的学习惩罚率从2023年初的约25%下降至2025年中的约16%,即使在固定样本的早期使用者群体中也观察到了这一趋势。这说明学生和教师正在某种程度上的适应。

但损失远未消失。研究人员建议:向学生提供关于AI长期代价的可信信息、增加闭卷考试权重、用完成时间而非作业分数来评估学习效果。

教育改革者需要面对一个根本问题:当AI可以比学生更快、更漂亮地完成任何书面作业时,教育的核心评价手段还剩下什么?

考试的回归不是倒退。它是在AI重构学习方式后,对学会和看起来学会之间那个不断扩大的裂缝,做出的一次必要校准。

AI不会让学习变得更差。它只是让学得很好和真正学会之间的鸿沟,变得前所未有地大。而这个鸿沟,两年后才能被看见。

作品声明:内容由AI生成