JAMA研究揭示主流大模型临床早期诊断短板：错误率超80%制约直接应用

2026年4月JAMA Network Open发布研究，对21款主流大模型（含GPT-5、Claude4.5 Opus等）开展临床全流程评测，发现其早期鉴别诊断错误率超80%，多假设推理能力不足是核心瓶颈，制约直接临床应用。

人工智能大模型在医疗领域的应用正逐步深入，从电子病历自动总结到治疗方案辅助建议，落地场景不断拓展，但临床诊断的准确性始终是其大规模应用的关键瓶颈。2026年4月，美国医学会期刊JAMA Network Open发布的一项最新研究，对全球21款主流大语言模型的临床应用能力展开系统性评测，揭示了这类技术在临床诊断环节的核心短板。

这项由美国约翰·霍普金斯大学医学院团队主导的研究，选取29个标准化临床病例进行全流程测试，覆盖鉴别诊断、检查选择、最终诊断、治疗管理、预后评估五大核心环节，评测对象包括GPT-5、Claude 4.5 Opus、Gemini 3、Grok 4等头部科技企业的旗舰模型。结果显示，所有模型在信息充分的后期环节表现相对较好，其中治疗管理阶段的平均准确率达76.3%；但在依赖有限初始症状进行多假设推理的早期鉴别诊断环节，错误率普遍超过80%——GPT-5为82.1%，Claude 4.5 Opus为81.5%，Gemini 3为83.7%，均远高于临床可接受范围。

从技术层面分析，早期鉴别诊断要求模型基于少量症状生成多个潜在病因假设，并通过逻辑关联筛选优先级，而研究发现多数模型存在过早收敛结论的问题，即倾向于快速输出高置信度的单一假设，却忽略了那些可能性较低但至关重要的病因。这一问题与模型的训练机制紧密相关：现有大模型的训练数据中，完整临床案例占比更高，而早期诊断阶段所需的碎片化、多维度推理样本相对匮乏，使得模型难以应对不确定性场景。此外，模型的概率生成架构更偏向输出概率最高的结果，而非保留多假设推理空间，进一步放大了早期诊断的误差。

这项研究的关键意义在于厘清了大模型在临床应用中的边界：当前阶段，模型无法直接承担独立诊断任务，其应用应局限于辅助医生决策的场景，比如提供治疗方案参考或病历结构化处理。若强行将模型用于早期诊断，可能增加误诊风险，进而引发医疗安全问题。

行业近期动态表明，针对这一短板，科技企业已开始针对性改进：2026年5月，微软与梅奥诊所联合推出医疗专用大模型MedGPT-2，通过引入10万+早期诊断病例样本训练，强化多假设推理模块，初步测试中早期鉴别诊断错误率降至45.2%；其他企业也纷纷跟进，OpenAI于2026年6月宣布GPT-5.1版本将新增“临床推理树”功能，模拟医生的分层诊断思维，允许模型输出多个假设及其证据链；Anthropic也同期推出Claude 4.5 Medical版，优化了症状与病因关联的概率建模，提升了不确定性场景下的推理鲁棒性。

目前来看，大模型在医疗领域的应用仍处于迭代阶段，早期诊断的推理能力短板是下一步技术突破的核心方向。后续需要整合更多临床真实数据、引入专业医疗知识图谱，并优化模型的推理架构，才有望逐步缩小与人类医生在诊断能力上的差距。