大模型的有脑和无脑

AGI
记忆系统:让大模型从“无脑”变“持续有脑”。

文 | 沈素明

2022年底,ChatGPT横空出世。

那段时间,全世界都在讨论它。写诗、写代码、做数学题、分析财报、辩论哲学——它什么都能接住,什么都能聊出个所以然。推理能力、语义理解、逻辑分析,让人惊掉下巴。

人们说:大模型有脑。太有脑了。

这个判断没错。大模型确实有脑。它是一个智商极高、知识极广、反应极快的存在。你给它一个问题,它给你一个答案。你给它一个难题,它给你一个思路。你给它一个模糊的描述,它能猜出你想说什么。

这是大模型的“有脑”一面。

但大模型还有"无脑"另一面,不是骂它。是客观描述。

一、有脑:推理与语义

大模型的有脑,体现在两个核心能力上。

第一,推理能力。

你给它一个逻辑题,它能一步一步推出来。你给它一个因果关系不明确的问题,它能帮你拆解出可能的路径。你给它一个A和B的矛盾,它能找出矛盾点在哪里。

这不是背答案。它没见过你的问题,但它能推。这是真正的推理能力。虽然这个推理和人脑的推理机制不同,但效果上,它确实能完成从前提推导出结论的过程。

第二,语义理解。

你说“预算有点紧”,另一人说“资源不太够”,大模型知道你们在说同一件事。它不认字面,认意思。它能把不同的话、不同的词、不同的表达方式,归结到同一个语义空间里。

这是大模型最核心的能力。它不是关键词匹配,而是真正的“理解”——虽然这个理解和人的理解不一样,但它能跨过词语的表象,捕捉到你真正想说的东西。

这两样加在一起,构成了大模型的“有脑”。它像一个通才型的天才,什么都能聊,什么都能接,什么都能给你一个像模像样的回答。

二、无脑:无状态与无记忆

但有脑的另一面,是无脑。

大模型有推理能力,但它没有目标。你让它推什么它就推什么,它不会自己说“我觉得你应该先推这个”。

大模型有语义理解,但它没有身份。它不知道“我是谁”,不知道“我在和谁说话”,不知道“我们之前聊过什么”。每一次对话,对它来说都是第一次。

大模型有海量知识,但它没有记忆。不是“记性不好”,是根本没有“记忆”这个概念。你关掉对话框,它就忘了。你说了什么、你关心什么、你是什么样的人——这些信息在对话结束的那一刻,就消失了。

更准确地说,大模型是一个“无状态函数”。

你可以想象一下:森林里有一只猴子。你叫它一声,它跳过来,按照你的指令做了一件事,然后跳走了。下一个叫它的人,它不认识,它按照新的指令做新的事。它不记得上一只猴子跟它说了什么,也不关心下一只猴子是谁。

大模型就是这只猴子。它跳过来、跳过去,响应每一个调用者的每一个请求。响应完了,飘走,下一个调用来了,再跳过去。

这就是大模型的“无脑”一面。你说它有脑,对。你说它无脑,也对。它是同一个东西的两面。这个“有脑又无脑”的特征,是大模型最根本的特征。理解了这一点,就理解了所有AI产品的底层逻辑。

三、微调:给大模型装“专业脑”

有人会问:那微调呢?微调之后的大模型,是不是就不一样了?

是的。微调是另一条路。

微调是什么?是用特定领域的数据,对预训练的大模型做进一步训练。比如,用海量的医疗数据微调,大模型就变成了“医疗大模型”;用法律数据微调,它就变成了“法律大模型”。

微调改变的是大模型的“能力边界”。微调之后的大模型,在特定领域的知识和能力会大幅提升。它知道医疗术语、诊断逻辑、治疗方案;它知道法律条文、判例逻辑、诉讼流程。

从这个意义上说,微调让大模型长出了“专业脑”。它不再是那个“什么都懂一点但不深”的通才,而是变成了一个在特定领域有深度的专家。

但微调解决的是“专业能力”问题,不是“记忆”问题。

微调之后的大模型,知道你的公司叫什么、你的产品是什么、你的行业有什么特点。但它仍然记不住昨天你跟它说了什么。它仍然是无状态的,仍然每次对话都是从头开始。

微调改的是模型的权重,不是模型的架构。架构决定了它是无状态的,这个改不了。所以,微调和不微调的大模型,在“记忆”这个维度上没有区别。它们都无脑——不是笨,是记不住。

四、长上下文:更大的工作内存,但不是长记忆

2024年到2025年,大模型行业有一个重要进展:上下文窗口的大幅扩展。从最初的几千年,到几万、几十万,甚至百万级别。你可以一次性把一本书、一份年报、一个完整项目的所有文档都塞进去。

这解决了一个真实的问题:单次对话内的连贯性。2023年的大模型,聊长了会忘记前面说了什么,因为上下文窗口太小。现在这个问题基本解决了。但长上下文解决的是“这次对话能装多少东西”,不是“下次对话还记得你”。你把一个项目的全部资料塞进上下文,大模型在这次对话中可以基于这些资料回答问题。但对话结束,关掉页面,下次再来,这些资料就没有了。你得重新塞一遍。

长上下文是“更大的工作内存”,不是“长期存储”。它让一次对话能处理更多信息,但它不解决“跨对话的记忆”问题。你上个月跟它聊过什么,它不记得。你半年前做过什么决定,它不知道。你的管理风格、你的战略底线——这些东西,长上下文帮不了你。

所以,长上下文解决的是单次对话内的连贯性,这个很重要。但它和跨对话的记忆是两回事——前者让一次聊天不跑偏,后者让每次聊天都认得你。两者都需要,但解决的是不同的问题。

五、记忆系统:让大模型从“无脑”变“持续有脑”

那怎么解决“记不住”的问题?

答案不在大模型本身,在大模型外面。

行业里有一个基本共识:大模型本身不做长期记忆。记忆要放在外面。什么叫放在外面?就是在调用大模型的时候,把历史对话、用户信息、上下文状态,一起打包塞给大模型。大模型看到这些信息,就知道“哦,之前聊过这些”,然后基于这些信息做推理。

这不是大模型在记忆,是外部系统在记忆,然后喂给大模型。

这套外部系统,一般被称为“记忆系统”或“记忆层”。它要做什么?

第一,记住用户是谁。

每一次用户进来,系统要知道他的身份、他的历史、他的偏好。这不是一句“你好,xxx”就完了,而是要能够把用户的所有历史数据——对话、决策、结论——关联到同一个身份下。这叫用户体系。没有这个,所有的记忆都是散的。

第二,记住用户说了什么。

不是记流水账。如果只是把每一句话原封不动存下来,那叫日志,不叫记忆。真正的记忆,是要提取出用户的思维轨迹——他是怎么分析问题的,他倾向于哪种解决方案,他在什么情况下会犹豫。这叫语义记忆。它需要把对话内容转化为可检索、可理解、可推理的结构化信息。

第三,记住时间线。

管理不是单点决策,是连续选择。你今天做的决定,是基于三个月前的判断。你现在的纠结,可能半年前就有过苗头。一个好的记忆系统,要把用户的每一次决策都放在时间轴上看。你什么时候启动了一个项目,中间在哪拐了弯,什么节点做出了关键判断——这些要串起来。这叫时间记忆。

第四,记住用户的“底色”。

这是最深的一层。经过长期的使用,记忆系统要能慢慢“长”出一个东西——用户的行为模式、决策偏好、风险容忍度、战略底线。这些东西不是用户说一遍就能记住的,需要长期的使用、不断的校准。而且,用户自己可能都说不清楚自己的“底色”,需要通过行为来反推。这叫战略记忆。

有了这四层记忆,大模型就不再是“无脑”的了。因为它每次被调用时,外部系统会把所有相关的记忆都喂给它。它看到的不只是用户当前的问题,还有用户的历史、用户的身份、用户的底色。

它给出的回答,就不再是通用的、泛泛而谈的,而是针对这个人、这个场景、这个阶段的具体情况。这就是“持续有脑”——不是大模型自己有脑,是外部记忆系统让它看起来有脑,而且是有针对性的脑。

六、对管理者特别重要

讲到这里,你可能会问:这套东西,对普通人也适用啊,为什么特别提管理者?因为管理者的工作,有几个特点,对记忆的要求特别高。这是CerebrateX作为AI管理专家,成为领导力神器必须回答的。

第一,长周期。

一个战略决策的影响,可能持续一年、三年、五年。一个项目的生命周期,可能跨越多个季度。管理者在这么长的时间跨度里,很容易忘记当初为什么那么定、中间经历了什么调整、自己当时是怎么判断的。

记忆系统可以把这些全部串起来。当你迷失在复杂的推演中,它可以告诉你:你当初的出发点是什么,你是从哪一步开始偏离的。当你做一个新决策时,它可以告诉你:你三个月前做过一个类似的判断,当时的逻辑是什么,结果怎么样。

第二,高密度。

管理者每天要处理大量信息。市场数据、团队反馈、客户需求、竞争对手动向——这些东西交织在一起,很容易让人信息过载。人脑的短期记忆容量是有限的,塞多了就会漏。

记忆系统可以帮你记住那些“不需要时刻在脑子里但需要时能调出来”的信息。你不用费力去记,你只需要知道,需要的时候它能给你。

第三,一致性要求高。

管理者的最大敌人之一,是前后矛盾。今天说A,明天说B,团队会混乱。但管理者也是人,会有情绪波动、会有短期压力、会有信息盲区。在这些情况下,很容易做出与自己一贯原则相悖的决定。

记忆系统可以在这里扮演“校准器”的角色。当你要做一个与自己过往逻辑不一致的决定时,它会提醒你:你之前不是这么想的,现在变了吗?如果变了,是因为什么?如果没变,你为什么又要这么做?

这就是为什么“记忆”对管理者来说,不只是“方便”,而是“必要”。没有记忆,就很难保持一致性。而一致性,是领导力的根基之一。

七、最后

大模型有脑。这一点,所有人都知道。

大模型无脑。这一点,很多人没有意识到。

微调给它装了专业脑,长上下文给它扩大了工作内存。但这两样,都没有解决那个根本问题:它记不住你。长上下文让一次对话不跑偏,但跨对话的记忆,是另一回事。

真正让大模型从“无脑”变“持续有脑”的,是外面那套记忆系统。用户体系、语义记忆、时间记忆、战略记忆——四层叠加,才能让大模型在每一次对话中都知道你是谁、记得你说过什么、理解你的底色、校准你的判断。

这件事,技术上很难。它需要从底层架构开始设计,需要大量的研发投入,需要长期的迭代打磨。不是接个API、套个壳就能搞定的。

本文系作者 沈素明 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App