2024CTIS-文章详情页顶部

BrainGPT:超越神经科学家的GPT

钛度号
研究团队通过在科研文献的通用文本数据集上训练LLM,让它们能够预测实验结果。不过神经科学领域文献量庞大、结果不稳定、研究范围广泛且方法多样,让llm的训练难度大增。一个庞大的语言模型,将给学科发展带来无限可能。

文 | 追问nextquestion

面对科研工作中海量的科学文献,科研人员常常感到不胜其扰。一方面,随着文献数量的指数级增长,人们难免会担心是否有颠覆性的发现未能引起足够的注意;另一方面,处理和整合这样大体量的发现已经超出了人类的能力范围。积累和整合知识,这一对科研工作者至关重要的能力,似乎只能通过数十年的经验积累才能达到。随着大语言模型(LLM)的流行,它是否能为我们找到打破这一困境的新路径?

人工智能与人类科学家之间的“互帮互助”其实早有渊源,在蛋白质折叠、药物研发和材料科学等领域,早就将机器学习算法用于研究中,这些研究背后的逻辑便是运用人工智能强大的计算与挖掘信息的能力来开发新的结构。那为何不将这种数据驱动的模式与规律学习能力用于建立针对科研文献的通用网络呢?

近日,在arxiv公开的一项工作便考虑了这种可能,通过在科研文献的通用文本数据集上训练LLM,让它们能够预测实验结果,测试了人类与LLM完成这一任务的能力对比、并最终建立了一个专门助力神经科学科研的BrainGPT。

Luo, Xiaoliang, et al. "Large language models surpass human experts in predicting neuroscience results." arXiv preprint arXiv:2403.03230 (2024).

01 神经科学的文献难题

考虑到神经科学广阔的涵盖范围以及极强的交叉性质,科学家们选择了神经科学作为此项研究的具体学科。想要在神经科学领域实现预测,极具挑战:(1)神经科学文献量庞大,每一篇文献的相关论文总是数以千计;(2)结果不稳定,对于大脑这样复杂的系统,单个研究的结果总是存在随机因素、不可靠性,甚至可能很难复现;(3)神经科学的研究范围既广泛又具有极强的交叉性,从分子、环路、系统到行为机制都是神经科学关心的范围;(4)研究和分析方法的多样性,神经技术包括不同的脑成像技术、损伤研究、基因修改、药理干预等等……

从可行性上来说,LLM具有应对这些难题的能力么?目前,基于Transformer架构,LLM已经在不同领域展现出了些引人瞩目的能力,如通过专业考试、推理、翻译、解决数学问题,甚至编写计算机代码等。这些能力都依靠于构建统计模型预测下一个“标记”,无论这个标记是单词、像素、或是蛋白质序列,LLM总是可以揭示出该领域潜在的模式或结构[1]。无论这样的结构有多难以察觉,甚至即使这样的结构并不完美,LLM总会完成任务。

这种学习和推广到新情况中的方式,与专业科学家多年阅读论文、参加会议和分析数据后发现领域模式的方式过程相似。从这些经验中,人类专家建立起直觉,使他们能够根据提出的研究设计预测未来的结果。然而,LLM在训练过程中甚至更胜一筹,因为其对于可以处理的文献几乎没有限制。

02 前向评价标准的重要性

随着LLM的兴起,伴随着应用场景的愈发壮大,评估基准的数量也与日俱增。这些基准可以是已知的数据集、任务或指标,用于比较不同模型之间的性能。在自然语言处理领域,常见的基准包括语言模型的困惑度(perplexity)、文本生成的质量、语义相似性度量等。通过与这些基准进行比较,可以评估模型的有效性、准确性和泛化能力。在科学领域中的评估基准大多数是反向评估,包括MMLU、PubMedQA和MedMCQA。通过结构化问答格式,测试模型是否具有广泛的知识、根据问题的上下文检索相关信息、并给出正确答案的能力。

以PubMedQA为例,这是一个生物医学问答数据集,来源于PubMed的摘要。其任务是使用相应的摘要回答研究问题,答案为是/否/可能(例如:在冠状动脉旁路移植术后,术前使用他汀类药物是否能减少房颤?)。它是第一个需要对生物医学研究文本进行推理,特别是对其定量内容进行推理以回答问题的QA数据集[2]

然而,如果想用人工智能来预测新的实验结果,这类评价模型能力的基准或许都不适用,因为预测能力本质需要的是一种全新的、前向的评价标准。这与传统的后向评估截然不同,后者主要关注于回顾性地回忆和重现已知事实的能力,例如,当学生回忆起在历史课上学到的关于安史之乱的事实时,强调的是检索用于问答和推理任务的已被接受的事实。而当涉及根据过去数据预测新的结果时,我们面临至少两种根本的不确定性:由系统内部随机性或误差引起的随机不确定性;和由于知识不足或信息缺失而引起的认知不确定性。例如,在预测哪位乒乓球选手会赢得下一局比赛时,人们不仅会基于对选手的了解和他们当天的表现进行预测,还会考虑到如微风等外部随机因素对球的飞行轨迹的影响。

为了满足前向评估的需求,研究者们开发了BrainBench来测试LLMs预测神经科学发现的能力(图1)。基于对包括神经科学领域在内的科学文献进行深度学习之后,LLMs被BrainBench评估是否掌握了神经科学结构研究方法与研究结论的基础模式,并且会与人类专家进行竞争。具体来说,BrainBench通过提供一篇最近期刊文章的摘要的两个版本来评估测试者的预测神经科学研究结果的能力。

图1:BrainBench图释,来源:论文

这些用于检测的摘要数据集总共包括由人类专家精心制作的200个测试案例和由GPT-4生成的100个测试案例,涵盖了来自2023年发表在《神经科学杂志》(The Journal of Neuroscience)中的五个不同神经科学领域下的摘要。每个测试案例都是修改了已发表的摘要,创造出一个改变了结果但未改变方法和背景的变体。修改保持了摘要的连贯性,但在基本结果上进行了微小的更改,例如交换了两个脑区在结果中的作用,改变了结果的方向等。

参与测试的人类被试需要在原始版和修改版之间做出选择,从而判断出正确的结论,并对其信心和专业水平进行评分。与此同时,LLMs则通过对两个版本的摘要进行困惑度打分,较低的困惑度分数指向正确的版本,两个版本的困惑度分数差异则反映了模型的信心水平。

关于前向评估,还有另一个重要的特点:LLMs一直由于倾向于产生错误的信息而被诟病,这种现象被LLM研究人员们称作“幻觉”。虽然在后向评估任务中,LLMs需要提供尽可能准确的总结和引用能力,但对于前向评估任务来说,将信息从庞大而杂乱的数据集中混合和整合的倾向可能恰恰有助于从新的实验中预测结果。就是说,在后向任务中被认为是“幻觉”的内容,在前向任务中可能代表着一种概括或预测能力。

03 LLMs的碾压性表现

研究者们在四个LLMs上进行了测试(Llama2, Galactina, Falcon, Mistral),并在筛选后选择了171名人类被试的结果进行了分析。通过在BrainBench上的评估显示,每一种LLM都展现了出色的性能,平均准确率高达81.4%,相较之下,人类专家的平均准确率仅为63.4%。即便是在严格筛选,只考虑那些自评为专业水平前20%的人类参与者,其准确率的提升至66.2%,也仍旧未能超过LLM的表现。

图2.测试人员分类占比与准确率情况图源:论文。

这一显著的差异不仅体现在测试集覆盖的五个不同的神经科学领域,而且在不同类型的人类专家群体中也普遍存在。研究结果还揭示,即便是参数数量相对较少的模型,如拥有70亿参数的Llama2-7B和Mistral-7B,其表现也与参数更多的大型模型相媲美。值得注意的是,当LLM被调整用于进行自然语言对话或优化指令时,其性能反而不如原始模型。研究者们怀疑,这是由于将LLMs调整为进行自然语言对话后,会影响其科学推理能力。

进一步探索LLM与人类在答题性能上的差异时,研究者首先提出了一个假设:LLM和人类专家是否对相同的问题有类似的判断基准?通过分析人类被试和LLMs在不同测试集上准确率的相关性,发现LLM与人类专家之间的平均Spearman相关系数为0.15(±0.03),而LLMs之间的平均Spearman相关系数为0.75(±0.08)。这说明不同的人工智能能发现更为一致的潜在模式,而这些模式与人类专家的发现或总结的规律往往不吻合。

04 LLMs如何实现优异表现

由于LLMs的参数量巨大,我们很难显式地刻画出它们从海量的科研文献中提取出来了什么样的规律。但是如果想要真正应用它们这样突出的能力,我们至少需要先确认它们真的具有“抽象”和“创造”的能力。想要确定这一点,需要考虑的干扰因素有至少以下两个:LLMs是否真的整合了文本信息?LLMs的表现是否仅代表了它强大的记忆力?

为了弄清楚第一个问题,研究者们调查了它们的表现是通过整合整篇摘要(包括所使用的方法),还是仅仅依赖于摘要中结论部分的局部上下文来实现的。这通过一个简单的对照实验便可以很快的验证:重新在仅包含结论部分单个句子的数据集上进行测试,发现这时判断原始版或修改版的表现显著下降。这表明LLM能够整合整篇摘要中的信息,包括背景和方法等细节。这也暗示了LLM在胜过人类实验参与者的表现背后,确实整合了更为全面的信息。

当LLM在基准测试中呈现出良好的表现时,一个不可避免的疑问随之而来:这是否仅仅是因为LLM对训练数据进行了记忆?换言之,测试集中的问题是否曾作为训练集的一部分,从而让LLM能够“回忆”出正确答案。针对这一个担忧,在LLM领域已经建立了一套比较常用的衡量方法,即zlib-困惑度比,来评估LLM是否已经记住了文本[3]。这个比率通过对比文本的压缩率与LLM计算得到的困惑度之间的差异来进行评估。文本的压缩率反映了在压缩过程中文本的不确定性水平,这与模型所学习的数据集类型无关;而LLM的困惑度则直接依赖于特定的数据集。若某文本难以压缩,但LLM显示出较低的困惑度,则可能意味着该文本是训练集中的一部分。

对于BrainBench来说,研究者们找到了一个参照——研究者们有较大把握“葛底斯堡演说”应该在LLM的训练集中出现多次。通过计算zlib-困惑度比,结果表明“葛底斯堡演说”确实表现出了被LLM记忆的迹象。与此相反,对于BrainBench,研究人员并未发现LLM表现出对其的记忆化倾向。另外,对于那些训练集是公开的模型,通过计算已知存在于训练集中的项目与已知不在训练集中的项目的zlib-困惑度比,发现这两者之间的分布有很大的重叠。这说明即使没有出现在训练集中,LLM在存储新数据的时候会以一种“一般模式”来实现需要泛化的前向任务——这一点与人类进行泛化任务时的模式十分类似。

最后,为了评估BrainBench作为一个预测系统的可信赖性,研究者们检查了LLMs预测的自信程度与其准确性是否一致,也称为“是否校准”。基于人类被试的信心打分,和LLMs计算出来的两个摘要之间困惑度的差异,研究者们均发现了准确性与自信度之间的正相关性。也就是说,当LLM对其决策更加自信时,其预测结果也更有可能是准确的。

05 BrainGPT的诞生

研究者们测试采用的LLMs已经在各种文本语料库上进行了充分的预训练,包括互联网来源、维基百科、书籍、代码仓库和arXiv论文。这使得这些预训练模型具有多功能性,能够处理各种任务,但为了增强在神经科学领域的专业知识,研究者们对预训练集语料库进行了微调。并使用大语言模型的低秩适应技术(LoRA)[4]来拓展通用LLM的能力,增强了一个预训练LLM,即Llama-2-7B-chat,让它获得了更深入的神经科学领域知识。

从零开始训练一个具有数十亿参数的LLM通常代价高昂,尤其是在需要处理大量训练数据的情况下。理想情况下,我们可以利用先前训练过的LLM(即基础模型),在其基础上构建新的模型。目前已有多种参数高效微调(PEFT)技术被提出,这些技术不需要对LLM的全部预训练权重进行重新训练,而只是训练一小部分新的参数,以增强模型的现有功能或引入新的功能。LoRA算法便是其中一种。

在构建专门针对神经科学文献的BrainGPT时,研究团队采用了这一方法。他们选取了2002年至2022年间发表在100个期刊上的神经科学研究文章,总共超过13亿个标记,用于微调Llama-2-7B chat模型。这种微调方法显著降低了计算需求,同时达到了与全新训练LLM相媲美的性能。这样,我们就可以利用LLMs的通用性和LoRA的精细调整功能,为神经科学任务提供了一个专业化的解决方案。

在LoRA算法微调之后,模型在识别正确与错误选项时的困惑度差异显著增加,这导致模型在BrainBench上的表现提高了3%。LoRA调整显著改变了正确响应的困惑度,这表明LLM真的做到了专门针对神经科学材料。LoRA引入的新权重不到1800万,仅占Llama-2-7B chat总权重的0.26%。这些结果表明,通过扩展现有的LLMs可以高效地派生出BrainGPT模型。

06 总结与展望

研究者们考虑了大型语言模型用于预测神经科学实验的结果的可能性,建立了一个全新的前向测试基准BrainBench。通过这个测试研究者们发现LLMs在训练后发现了潜在的神经科学研究模式,从而使LLMs能够在遇到从未见过的研究结果时准确的判断出正确的研究结果。

LLMs优秀的表现似乎暗示着,未来它将帮助科学家进行科研工作。通过重新定向通用大模型,研究者们建立了专为神经科学创建的BrainGPT。或许不久的将来,神经科学家们将通过与BrainGPT一起工作,查询和更新最新最全面的学科知识,来应对当前的课题。

除了作为神经科学家的工具外,基于BrainGPT设计多种实验还可以帮助揭示神经科学领域更深层的结构。例如,引入其他相关领域的训练数据时,对BrainBench会有什么样的影响呢?通过将训练集中的文献按最新性、引用次数或影响因子分类,我们能否更精准地量化不同领域间的相关性?若将神经科学的预测视为演绎推理的过程,那么加入逐步推理的思维链是否会提升BrainGPT的性能?或者,这是否意味着神经科学的预测实质上是基于其子领域众多复杂交织信号的函数?这些探索触及了元科学的领域,而BrainGPT正为我们研究这类问题提供了宝贵的机遇。

最后,研究者们还展望了将这篇研究中的工作拓展到更广泛科研领域的可能性,其他知识密集型领域都可采用相同模式,相比于商用大语言模型,这一点模式完全可以基于相对较小的、权重可访问的本地模型就可以实现。

论文在最后一句话写到“LLMs似乎准备在预测方面取代人类,但我们相信人类专家依旧将在科学解释方面发挥作用。预测十分重要,但并不是全部”。这一点正解决了笔者在阅读文献中最大的疑惑,在对人类被试的表现进行分组展示后,准确率最低的两个群体是在读博士生和科学家,未进入博士阶段的学生表现甚至要更优一些。

这是否正说明了预测实验结果并不是优秀的科研者真正的代表性技能?这个问题还可以引导我们思考在面对来势汹汹的通用模型时,我们究竟是要阻碍其取代我们,还是推动我们思考属于自己的真正的优势是什么呢?

参考文献:

  • [1] STRACK R. Visual proteomics [J]. Nature Methods, 2023, 20(12): 1868-.
  • [2] JIN Q, DHINGRA B, LIU Z, et al. Pubmedqa: A dataset for biomedical research question answering [J]. arXiv preprint arXiv:190906146, 2019.
  • [3] CARLINI N, TRAMER F, WALLACE E, et al. Extracting training data from large language models; proceedings of the 30th USENIX Security Symposium (USENIX Security 21), F, 2021 [C].
  • [4] HU E J, SHEN Y, WALLIS P, et al. Lora: Low-rank adaptation of large language models [J]. arXiv preprint arXiv:210609685, 2021. 
本文系作者 追问nextquestion 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App