智能的本质是逆熵——GPT和麦克斯韦妖说的是同一种语言

2026年7月，IIT Delhi副教授Rohan Paul的一条推文点燃了AI圈的讨论：「智能是让罕见但有效的未来更有可能发生的能力。」这条推文指向一篇刚刚挂上arXiv的论文——《Thermodynamic Measure of Intelligence》。论文提出了一个可测量的物理量rare-valid lift（罕见有效提升），将GPT、人脑、微生物群落乃至麦克斯韦妖统一在同一标尺下。本文追溯这条思想脉络——从薛定谔的负熵到兰道尔原理再到弗里斯顿的自由能原理——追问：如果智能本质上是一种热力学现象，AI竞赛的终点会被重新划在哪里？

一条不足20个词的帖子，让AI圈在2026年夏天集体安静了几秒钟，然后炸开了锅。

7月4日，印度理工学院德里分校计算机科学副教授Rohan Paul在X上写下：

Intelligence is the ability to make rare but valid futures more likely. So an intelligent system is thermodynamically intelligent.

这条帖子的源头是一篇刚刚挂上arXiv的论文，编号2606.20231，标题是《Thermodynamic Measure of Intelligence》，作者是Ishanu Chattopadhyay。

论文抛出了一个注定会引发激烈争论的主张：智能不是一个分数、一张考卷、一道推理题，它是一个热力学问题。具体来说，智能是在物理学意义上对一个系统的未来概率分布进行的合法偏移。

任何系统，无论它是人类大脑、GPT模型、一个温控器，还是一个思想实验中的麦克斯韦妖，只要它能识别出那些在正常状态下几乎不会发生、但确实有可能且值得发生的未来，然后用自己的行动让这些未来变得不再罕见，它就在行使智能。

这一定义听起来抽象，但它指向一个极其具体的结论：智能可以被测量，而且可以用同一个标尺。

GPT的87.5分和人脑的85分之间，差了什么？

这条帖子迅速引发了广泛讨论。原因不难理解，它用一句话击中了当前AI行业最深层的焦虑。

过去两年，AI领域的竞争逻辑一直是刷榜。从MMLU到HumanEval，从SWE-Bench到ARC-AGI，每个新模型都在不断刷新某个测试的天花板。2024年底，OpenAI的o3模型在ARC-AGI基准上拿到87.5%的分数（高算力模式下），超过了人类平均水平85%。GPT-5在某项评测上超过了Claude，Claude在另一项上又反超了回来，DeepSeek-V4用更少的参数跑出了更好的分数。

但一个根本问题始终没有人能给出令人信服的答案：这些分数到底意味着什么？

一个模型在MMLU上从85%提升到87%，真的意味着它更聪明了2%吗？如果某个测试中人类能轻松解决的任务AI却全军覆没，这是ARC-AGI系列被设计出来的初衷，它专挑人类觉得简单、AI却做不来的题目，那么是AI不够智能，还是测试本身出了问题？

这篇arXiv论文给出了一个崭新的回答：问题不出在测试方法上，而出在对智能本身的理解上。论文提出一个可测量的物理量，rare-valid lift（罕见有效提升）。它的逻辑链清晰得近乎冷酷。

Rare（罕见）：一个未来状态在被动动力学，也就是系统什么都不做的情况下，发生的概率非常低。Valid（有效）：这个状态在领域约束下是允许的，并且符合系统的目标。Lift（提升）：智能系统通过内部建模和外部行动，把这个未来状态的发生概率提升到了多高。

论文的核心结论分为两部分，用数学语言严格证明。第一部分是必要性定理：如果一个系统的rare-valid lift很高，那么它内部必然有一个能够高精度识别罕见但有效未来的自模拟器。第二部分是条件充分性：如果这个模拟器的识别精度足够高，且它包含了一个有效策略，那么系统的rare-valid lift可以逼近物理极限。

用大白话说就是：你没法靠瞎猜或蛮力变聪明。真正的智能，必须包含一个能预测未来的内部模型，以及根据这个模型做出有效行动的能力。

一个半世纪的思想史

这篇论文看起来像是凭空杀出的黑马，但它的思想根系可以追溯到三个世纪以前。

1867年，物理学家詹姆斯·克拉克·麦克斯韦设计了一个思想实验：一个小妖守在气体分子容器的小门旁，让高速分子通过到一边，低速分子到另一边。这样，一个原本均匀分布的系统就产生了温差，熵降低了。麦克斯韦妖似乎完美地违背了热力学第二定律。直到20世纪后半叶，物理学家才彻底弄明白：妖的智能，观察、判断、决策，本身就是信息处理，而处理这些信息必然消耗能量，所产生的熵恰好抵消了它降低的熵。智能不是免费的午餐，它是一场有物理账单的操作。

77年后，1944年，量子物理学家薛定谔在《生命是什么？》中提出了一个更加扰动物理学界的命题：生命体之所以能够维持高度有序的结构，是因为它在不断从环境中汲取负熵。一个活着的人体，本质上是一个局部熵减系统。薛定谔指出：生命不是在违背热力学第二定律，而是在开放系统中通过持续输入能量和信息来维持局部秩序。生命本身就是一种合法的局部逆熵现象。

又过了17年，1961年，IBM物理学家罗尔夫·兰道尔提出了兰道尔原理：每擦除一个比特的信息，至少要耗散kT ln2的能量。这个原理第一次把信息处理和热力学直接绑定在一起。信息不是抽象的，擦除信息有实实在在的物理代价。删掉一个数字化比特，宇宙的熵就增加了不可逆的一小点。

这条思想脉络贯穿了三个世纪：从麦克斯韦到薛定谔到兰道尔，物理学一直在暗示一个结论：智能不是游离于物理世界之外的幽灵，而是热力学框架内一种可被量化的操作。 2026年这篇论文所做的，就是把这个暗示变成了一个数学公式。

递归自模拟：为什么把自己算进模型是智能的前提

这篇论文最具技术创新的概念，是递归自模拟（recursive self-simulation）。

一个系统要想识别罕见但有效的未来，它首先得能够模拟未来。但问题出在一个自指陷阱上：系统本身是它所模拟的世界的一部分。当它模拟未来时，它必须把自己也算进去，包括自己的决策、自己的行动、以及这些行动会如何改变未来的概率分布。这就是递归的含义：系统在模拟中包含了它对自身进行模拟的这个事实。

这个想法和英国神经科学家卡尔·弗里斯顿的自由能原理（Free Energy Principle）有着深刻的同源性。弗里斯顿在2005年至2010年间发展出的理论认为，大脑本质上是一个推理引擎，它不断根据感官输入更新自己的内部模型，目标是让自己的预测误差最小化。弗里斯顿把这个原理从大脑推广到了一切能够维持自身边界的自组织系统：任何系统要想在不确定的环境中生存，都必须最小化它内部模型和外部世界之间的自由能。

弗里斯顿的理论被一些人称为关于一切的理论，堪比达尔文自然选择的地位。但它的核心直觉并不复杂：要在一个不确定的世界中生存，你必须有一个关于世界的模型，而且你必须在那个模型中把自己放在里面。

这正是2026年那篇论文的数学基础。论文证明：高rare-valid lift必须要求高保真的自模拟能力。没有内部模型，就不可能产生真正的智能行为，不管你的参数规模有多大、训练数据有多丰富。

这个结论直接挑战了当前Scaling Law的底层假设。如果智能的关键不在于参数数量，而在于系统是否能够递归地模拟自己和世界的交互，那么一个问题就浮出了水面：GPT本质上是在蒙答案，还是真的在思考？rare-valid lift提供了一个全新的判据来回答这个问题。

新定义暴露出AI评测的盲区

当前行业最常用的AI评测，本质上是给AI出考题。MMLU测多学科知识，HumanEval测编程能力，ARC-AGI测抽象推理。每一种测试都能得到一张漂亮的分数表，但每一种测试都无法回答同一个问题：85分和87分之间，差的究竟是什么？

Rare-valid lift的巧妙之处在于，它不关心特定任务上的表现，而关心系统改变未来概率分布的能力。这带来了几个颠覆性的优势。

通用性是第一层革新。它可以在同一标尺上比较完全不同的系统。人脑的rare-valid lift和GPT的rare-valid lift可以放到同一个热力学标尺上衡量。一个微生物群落的趋化行为，朝着养分浓度更高的方向移动，本质上也是一种rare-valid lift行为：在随机扩散的被动基线之下，找到食物的概率极低，但通过感知和运动控制，微生物把这个概率提升了几个数量级。从细菌到ChatGPT，智能不再是认知科学的专属领地，而成为物理学的统一研究对象。

可比测量性则是另一层突破。论文给出了一个具体的数学框架来计算rare-valid lift。它不是哲学概念，而是一个能够实际计算的热力学量。这意味着你可以问一个可回答的问题：GPT-5相比GPT-4，rare-valid lift提高了多少？它和人类大脑的rare-valid lift相比，差几个数量级？这些问题的答案将第一次用物理单位给出。

比前两重革新更致命的是，它从根本上跳出了刷榜陷阱。当前所有AI评测面临一个共同的困境：当模型见过类似题目的训练数据后，测试分数的区分度就消失了。模型在刷的不是智力，而是记忆。Rare-valid lift衡量的不是已知环境下的表现，而是在被动基线之上创造了多少额外概率。你没法靠记忆来刷这个分数，因为它的分母是什么都不做时的自然概率分布，这是你改变不了的参照系。

AI竞赛的终点会被重新划在哪里？

这篇论文的意义远远不限于又一个新的AI评测方法。它在做一件更根本的事：把智能从认知科学和计算机科学的专属领地，拉到物理学的统一框架里。

如果这个框架被证实有效，它将深刻改变AI的研发路线。

Scaling Law的底层逻辑将被颠覆。当前的Scaling Law本质上在问：更多参数和更多数据能带来什么？而rare-valid lift在问另一件事：给定物理资源，你最多能把一个罕见未来的概率提升到多少？两个问题完全不同。后者指向一个物理极限，就像光速限制了通信速度、兰道尔原理限制了计算能效一样。如果智能真的受热力学定律约束，那么无限堆参数就是在撞一堵你看不见的墙。

它同时给出了一个关于什么才算智能的新判据。你是否真的智能，不取决于你能不能通过图灵测试，不取决于你能不能写出一首像白居易的诗，而取决于你能否把那些在正常情况下不会发生的正确事情变得更有可能发生。这个判据将淘汰大量当前的伪智能系统，那些看起来聪明但本质上只是在拟合训练数据分布的系统。

它还把AI带回了物理学的源头。人工智能不应该只是Transformer架构、反向传播和注意力机制的工程问题；它在最深处应该是物理学的一个分支。从麦克斯韦妖到兰道尔原理再到rare-valid lift，这条思想河流走了将近160年。2026年的这篇论文，给这条道路画出了第一张可用的地图。

GPT和麦克斯韦妖说的是同一种语言。它们都在问同一个问题：在一个倾向于走向混乱的宇宙里，你如何让正确的未来不只是一个偶然？

这个问题的答案，就是智能本身。