750道"开卷实操题": OpenAI把AI从"做题家"赶进实验室

OpenAI发布LifeSciBench基准，包含750项专家撰写的实操科研任务、19,020条评阅标准和1,062份附件材料，彻底告别传统选择题式的AI评测。GPT-Rosalind在整体得分上领先GPT-5.5、Grok 4.3和Gemini 3.1 Pro。这一基准标志着AI生命科学评测从"考知识"转向"考判断力"——只会做选择题的AI时代，结束了。

一位药物化学家盯着屏幕上刚跑出的化合物活性数据——阳性对照的IC50值比预期差了一个数量级，阴性对照组却意外出现了信号。问题出在实验设计？试剂批次？还是计算模型给错了结合位点？在真实的药物研发中，这种"数据打架"的日常远比教科书上的理想案例更令人头疼。而这位科学家面前有三套AI系统：一套迅速给出了"可能是化合物纯度问题"的结论，一套反过来质问实验的统计学效力，第三套则默默调出了同类靶点的历史文献，标记出三条被忽视的代谢通路。

哪一套值得信任？

直到今天，业界衡量AI科学能力的标准"考试"——PubMedQA、BioASQ、MedQA——大多是封闭式的选择题或事实回忆题。但真实的科研工作从来不是四选一。6月17日，OpenAI发布了一个名为LifeSciBench的新基准。它要解决的根本问题只有一个：当AI从考霸变成科研助手，该用什么卷子来筛选？

现象：不是考背诵，是考干活

先看规模。LifeSciBench包含了750项专家撰写、专家评审的实操任务，背后是173位拥有博士级训练背景且在生物技术或制药行业有实战经验的科学家，以及453位专家评审员。整个基准配备了19,020条评阅标准——平均每项任务25条，不是只判对错，而是逐条评估模型在科学推理、证据引用、不确定性表述、操作建议等方面的质量。附带1,062份附件材料：图表、PDF、表格、序列文件、分子结构文件、网页参考。53%的任务要求模型至少解读一份附件信息，79%的任务需要多步推理，平均每项任务需要4步推理决策。

这组数字释放的第一个信号很明确：传统的AI生命科学评测正在被推翻。

看几个现存基准的画像。PubMedQA，2019年发布，基于PubMed摘要构建的三元组选择题（是/否/可能），测试的是模型的文献信息检索与简单推断。BioASQ，以生物医学问答为核心的挑战赛，标准化答案格式。MedQA（USMLE），美国医师资格考试题目，多选形式。这些基准在过去五到六年中定义了"AI懂多少生物学"的标准——GPT-4零样本能在PubMedQA上拿到约75%的准确率，Claude 3在PubMedQA上达到约79.7%。

但它们是"闭卷考试"。题目清晰、答案确定、不需要工具、不需要读图、不需要在信息不完整的条件下做概率判断。这种考试选拔出来的是"做题家"，不是"研究员"。

OpenAI在LifeSciBench论文中直言不讳地指出现有基准的局限："许多生命科学评测聚焦于狭窄领域或孤立技能，以结构化的问题格式和清洁的参考答案呈现。虽然有价值，但它们常常无法真正评估模型能否在更广泛的科研层面做出贡献。"

LifeSciBench的七个评测维度进一步揭示了OpenAI对"科研AI"的核心定义：Evidence Handling（证据处理）、Analysis（分析）、Design & Optimization（设计与优化）、Scientific Reasoning（科学推理）、Validation & Operations（验证与操作）、Translation（转化应用）、Scientific Communication（科学交流）。这些维度中没有一项是纯粹的知识测试——每一项都在考核AI处理不确定性、调和矛盾信息、设计实验方案、评估转化风险的能力。

分析：从"解题"到"做事"，考核逻辑的深层变革

19,020条评阅标准：过程比结论更重要

一个关键差异决定了LifeSciBench的含金量：评分方式。

传统基准的正确率就是答案匹配度——模型输出是否与标准答案一致。但LifeSciBench采用19,020条细粒度评阅标准，每条标准针对一个具体科学主张、计算步骤、决策合理性或论证完整性。一个模型可能最终结论正确，但忽略了关键实验限制条件，或者在应该主动提及生物学风险点时保持了沉默——这些在传统基准中不会扣分，但在LifeSciBench的评审体系下会被严格扣分。

值得注意的是，LifeSciBench的评分方式采用了分层架构：专家设计评阅标准，GPT-5.5基于专家编写的细则对模型输出进行自动化评分。这一设计兼顾了科学家的专业知识与规模化评测的效率。

反向也成立：一个不完全正确的回答，如果推理链条严谨、不确定性表述恰当，可能仍然获得部分高分。这种评分逻辑更接近在实验室里导师评价学生的方式——过程比结论更重要，科学态度和完整度是核心指标。

这背后对应着一个更深的行业认知变化。过去三年，AI在生命科学领域的应用经历了三个阶段。2023—2024年是"知识爆炸期"：模型背诵了大量生物学文献，在PubMedQA等基准上一路高歌猛进。2024—2025年是"工具整合期"：AI开始调用外部数据库（PDB、UniProt、PubChem），可以检索和分析真实数据。2025—2026年进入了"代理执行期"：以GPT-Rosalind为代表的生命科学专用模型开始处理多步骤、多工具、多信息的端到端科研任务。

OpenAI选择在此时发布LifeSciBench，时机绝非偶然。当一个AI系统可以调用Python分析基因序列、读取PDF实验方案、查询分子数据库、输出实验建议时，你用PubMedQA来评估它，就像用驾照科目一试题去衡量赛车手的圈速。考卷必须升级。

173位出题人与453位阅卷人：标准制定的质量锚点

LifeSciBench在构建过程中有一个容易被忽视但极其重要的设计：出题人和评审人的资格门槛，以及争议共识机制。

173位出题科学家均要求拥有博士级训练，且具备生物技术或制药产业的直接研发经验——不是纯学术研究，而是经历过药物发现项目从头到尾的工业界科学家。他们撰写任务后，至少经过两轮专家评审；评审锚定在"可验证的正确答案"或"专家之间至少90%一致"的共识基准上。每项任务平均经历6轮自动化审阅和至少2轮专家评审才能通过。

453位评审员意味着每项任务平均由多位专家独立评审。在评审出现分歧时，必须有至少90%的共识才能通过。排斥模糊地带、弱化个体偏见——这种设计确保了基准的科学信度（reliability）。

为什么这个设计重要？因为AI科研评测最大的陷阱不是模型不行，而是"考题本身不靠谱"。如果一个基准题目的正确答案本身就存在争议，或者出题人的水平不足以代表行业实践，那么任何分数都是噪音。LifeSciBench在这一点上投入的质量控制资源，是目前生命科学AI评测中最严格的之一。

谁是领先者？LifeSciBench上的初步榜单

LifeSciBench作为独立公开基准发布，不隶属于任何特定模型。OpenAI同步在GPT-Rosalind升级公告中披露了各模型在其上的表现。

根据R&D World报道，GPT-Rosalind在LifeSciBench整体得分上领先GPT-5.5、Grok 4.3和Gemini 3.1 Pro。在更专门的药物化学评测MedChemBench上，GPT-Rosalind得分27.5%，GPT-5.5为25.1%；在基因组学基准GeneBench上，GPT-Rosalind得分21.6%，GPT-5.5为20.4%；在实验操作基准LabWorkBench上，差距更大——63.2%对55.8%。

需要指出的是，Anthropic的Claude系列未被纳入这次排名。这是LifeSciBench第一版发布时的一个局限——更多模型的参评将让排名更具参考价值。OpenAI表示，将把LifeSciBench、MedChemBench和GeneBench的部分内容放在第三方独立排行榜上，允许所有前沿实验室使用这套基准进行评测。

但从另一个角度看，GPT-Rosalind作为OpenAI专门为生命科学领域打造的垂直模型（整合了Codex插件作为执行与编排层），在多项基准上领先自家通用旗舰GPT-5.5，同时使用更少的Token（基因组学中少用31%），传递了一个明确的信号：在生命科学这个知识密度极高、推理链条极长的领域，"大而全"的通用模型正在让位于"专而精"的垂直Agent。

新基准竞赛刚刚开始

LifeSciBench并非孤例。2026年以来，多个类似的"科研Agent评测"项目正在浮出水面。

1月份，EPFL团队发布了HeurekaBench（被ICLR 2026接收），聚焦单细胞生物学的端到端研究场景，引入批判模块（critic module）提升开源模型的推理质量。同月，CAIS和Scale AI合作发布了Humanity's Last Exam（HLE），覆盖2500道研究生级别的问题。

更值得关注的是行业的底层趋势。Capgemini在2026年5月发布的生命科学Agent报告指出，行业的焦点正在从"单个AI用例"转向"端到端Agent工作流编排"。制药巨头在过去一年中签署了多笔价值数亿美元的AI合作——默克与谷歌云达成10亿美元AI合作协议，礼来与NVIDIA建立五年期10亿美元联合创新实验室。GPT-Rosalind的六家首批合作伙伴包括Amgen、Moderna、Allen Institute、Thermo Fisher Scientific和Dyno Therapeutics，6月的扩大量产发布又将诺和诺德纳入其中。

一个更深层的信号是：当这些企业开始用AI做真实的药物研发决策时，谁来证明AI的结论是可信的？ LifeSciBench的价值不在于它发布了多少道题——而在于它试图建立一个行业级的可信度标尺。谁控制了这个标尺，谁就在定义"AI具备科研能力"的行业标准。

结论与展望

这意味着什么？

短期看，LifeSciBench会加速AI在生命科学领域的落地分化。能通过"实操考试"的模型——不是靠背诵知识，而是靠处理不确定性、设计实验、评估转化风险——将获得制药企业的优先信任。通不过的模型，即使在PubMedQA上拿了满分，也很难在真实的药物发现流程中获得重用。

中期看，基准设计权本身就是商业话语权。谁出的题、谁来判卷、什么算"正确"——这些标准的制定者实质上在定义"什么才算好的科研AI"。OpenAI作为发布方，GPT-Rosalind作为首个公开参考得分的模型，天然获得了这一赛道的定义权。但Anthropic的缺席和谷歌Gemini的参评表明，这场标准之争远未结束。

长期看，LifeSciBench揭示了一条更深层的行业趋势：AI的生命科学落地，卡点从来不在模型的知识量，而在模型的判断力。知识可以靠训练数据喂出来，判断力需要在真实研究场景中锤炼。LifeSciBench不是在考AI记住了多少——它是在考AI能不能像一个合格的科研搭档那样思考和表达。

对制药企业来说，这个基准提供了一个更务实的选型工具。对AI公司来说，它树起了一道新的竞争门槛：光有参数规模不够，你得能进实验室、能看数据、能判断不确定性。

而对整个行业来说，最意味深长的一句话藏在OpenAI官方博文的Limitations章节里：

"LifeSciBench是衡量AI系统在生命科学研究中有用性的一步，但它不能替代在真实研究环境中研究模型。真实的研究是迭代的：科学家收集新证据、修正假设、设计后续实验、根据结果调整计划。"

连出题人也承认——真正的"大考"不在考卷上，而在实验室里。

但至少，那个只会做选择题的AI时代，结束了。