当AI开始学会遗忘……-钛媒体官方网站

“不健忘”可能是计算机最让人羡慕的特质之一。却有人反其道而行之，研究起遗忘技术对人工智能的影响。学习后删除嵌入层的数据，似乎不妨碍AI在学习过程中锻炼抽象思考和推理能力。有趣的是，定期删除表层记忆也是科幻作品《西部世界》中AI产生意识的开始…

文 | 追问nextquestion

计算机科学家研发出了一种新型机器学习模型，这种模型更加灵活敏捷。^[1] 其独特之处在于：该模型需要定期地“遗忘”它所学习到的信息。虽然这种新方法无法完全取代那些支撑着大型应用的庞大模型，但它可能帮助我们更深入地了解这些程序是如何理解语言的。

韩国基础科学研究所的人工智能工程师Jea Kwon认为，这项研究代表了该领域的一大突破。^[2]

▷原始论文：Chen, Yihong, et al. "Improving language plasticity via pretraining with active forgetting." Advances in Neural Information Processing Systems 36 (2024).

现行的人工智能语言引擎大多由人工神经网络驱动。^[3]这些网络中的每个“神经元”都是一个执行特定运算的数学函数，它接收来自其他神经元的信号，并在多层神经元之间传递这些信号。起初，信息的传递较为随机，但随着网络对训练数据的适应，信息传递将得到改善。例如，一个人工智能研究者若想构建一个双语模型，她会用两种语言的大量文本来训练这个模型，以调整神经元之间的连接，实现两种语言中词汇的相互对应。

但这种训练过程消耗的计算资源巨大。如果模型性能不佳，或者用户需求后续发生变化，调整模型就变得非常困难。Mikel Artetxe，该研究的合著者兼人工智能初创公司Reka的创始人解释说：“假设你有一个包含100种语言的模型，但偏偏缺少了你需要的那一种语言。从头开始构建显然并不理想。”^[4]

Mikel Artetxe和他的同事在尝试解决这些限制。几年前，他们用一种语言训练了一个神经网络，随后删除了模型对该语言基本词元（令牌，tokens）的认识。^[5]这些令牌被储存在神经网络的第一层，也就是嵌入层。他们保留了模型的其他所有层。在删除了第一种语言的令牌后，他们使用第二种语言对模型进行了重新训练，使嵌入层填充了新语言的令牌。

即使模型中包含着不匹配的信息，重新训练的效果依然显著：模型能有效地学习并处理新的语言。研究人员推测，尽管嵌入层储存了特定语言中所用单词的信息，但网络的更深层次则存储了关于人类语言背后更为抽象的概念信息，这对模型学习第二种语言大有裨益。

“我们生活在同一世界，使用不同语言表达相同概念。”这篇最新论文的主要作者Yihong Chen这样说道。“这就是为什么模型能够展现出相同的高层次推理。苹果不仅是一个词，它代表着某种甜美、多汁的东西。”^[6]

▷Mikel Artetxe 希望更灵活的语言模型能够为更晦涩的语言带来最新的人工智能突破，比如他的母语巴斯克语。图源：BBVA Foundation。

尽管这种遗忘技术是将新语言添加到已训练模型中的有效手段，但重新训练仍颇具挑战，因为它需要大量的语言数据和处理能力。Chen提出了一个改进方案：不是在训练完成后清除嵌入层然后再重新训练，而是应在最初的训练过程中定期重置嵌入层。Mikel Artetxe解释说：“这样做让整个模型逐渐适应重置。这意味着，当你想要将模型扩展到另一种语言时，过程会更加顺畅，因为这正是你一直在进行的操作。”

研究人员使用一种名为Roberta的流行语言模型，并应用他们的定期遗忘技术进行训练。^[7]他们将使用遗忘方法训练的模型的性能与采用传统非遗忘方法训练的同一模型进行了对比。遗忘模型的表现略逊于传统模型，在一项通用的语言准确性测试中，遗忘模型的得分为85.1，而传统模型得分为86.1。随后，他们使用只有500万令牌的较小数据集对模型进行了另一种语言的重新训练，而不是之前用过的700亿令牌。标准模型的准确度平均降到了53.3，但遗忘模型仅下降到了62.7。

如果在重新训练期间施加计算限制，遗忘模型的表现也更为出色。当研究人员将训练步骤从125,000步减少到仅5,000步时，遗忘模型的准确度平均下降至57.8，而标准模型的准确度则骤降至37.2，这并不比随机猜测更好。

研究团队发现，定期的遗忘似乎使得模型在学习语言的过程中表现更佳。“因为模型在训练过程中不断地遗忘再重新学习，所以之后向网络灌输新知识变得更加容易。”魁北克人工智能研究中心（Mila）的研究员Evgenii Nikishin指出。^[8]这表明，当语言模型理解某种语言时，它们的理解并不仅限于单个词汇的表面含义。

这种方法与我们大脑的工作机制类似。“一般来说，人类的记忆并不擅长存储大量的详细信息。相反，我们更倾向于记住经验的精华，进行抽象思考和推理，”旧金山大学的神经科学家Benjamin Levy解释说。“赋予人工智能以类似人类的处理过程，如适应性遗忘，是提高其灵活性的一个方法。”^[9]

Mikel Artetxe期望，这些具备灵活遗忘功能的语言模型能够让更多的语言受益于人工智能的最新进展。虽然人工智能模型在处理资源丰富的语言，如西班牙语和英语方面表现出色，但对于像他的母语巴斯克语这样的地方性语言则显得力不从心。巴斯克语是西班牙东北部的一种独特语言。“大部分大型科技公司的模型在这方面的表现都不尽人意，”他说。“使现有模型适应巴斯克语是一条正确的道路。”

Yihong Chen也期待一个更加多元化的人工智能世界。“我憧憬的是一个不再依赖单一大型语言模型的世界。我们可以拥有更多选择，”她说。“如果有一家制造语言模型的工厂，你就需要这种技术。它可以基于一个基础模型，快速适应新的应用领域。”

参考文献：

[1]:https://arxiv.org/abs/2307.01163
[2]:https://jeakwon.github.io/
[3]:https://www.quantamagazine.org/tag/neural-networks/
[4]:https://www.mikelartetxe.com/
[5]:https://arxiv.org/abs/1910.11856
[6]:https://github.com/yihong-chen
[7]:https://huggingface.co/docs/transformers/model_doc/roberta
[8]:https://evgenii-nikishin.github.io/
[9]:https://www.usfca.edu/faculty/benjamin-levy

当AI开始学会遗忘……

敬原创，有钛度，得赞赏