JAMA研究揭示主流大模型临床早期诊断短板:错误率超80%制约直接应用

2026.04.17 19:15
2026年4月JAMA Network Open发布研究,对21款主流大模型(含GPT-5、Claude4.5 Opus等)开展临床全流程评测,发现其早期鉴别诊断错误率超80%,多假设推理能力不足是核心瓶颈,制约直接临床应用。

人工智能大模型在医疗领域的应用正逐步深入,从电子病历自动总结到治疗方案辅助建议,落地场景不断拓展,但临床诊断的准确性始终是其大规模应用的关键瓶颈。2026年4月,美国医学会期刊JAMA Network Open发布的一项最新研究,对全球21款主流大语言模型的临床应用能力展开系统性评测,揭示了这类技术在临床诊断环节的核心短板。

这项由美国约翰·霍普金斯大学医学院团队主导的研究,选取29个标准化临床病例进行全流程测试,覆盖鉴别诊断、检查选择、最终诊断、治疗管理、预后评估五大核心环节,评测对象包括GPT-5、Claude 4.5 Opus、Gemini 3、Grok 4等头部科技企业的旗舰模型。结果显示,所有模型在信息充分的后期环节表现相对较好,其中治疗管理阶段的平均准确率达76.3%;但在依赖有限初始症状进行多假设推理的早期鉴别诊断环节,错误率普遍超过80%——GPT-5为82.1%,Claude 4.5 Opus为81.5%,Gemini 3为83.7%,均远高于临床可接受范围。

从技术层面分析,早期鉴别诊断要求模型基于少量症状生成多个潜在病因假设,并通过逻辑关联筛选优先级,而研究发现多数模型存在过早收敛结论的问题,即倾向于快速输出高置信度的单一假设,却忽略了那些可能性较低但至关重要的病因。这一问题与模型的训练机制紧密相关:现有大模型的训练数据中,完整临床案例占比更高,而早期诊断阶段所需的碎片化、多维度推理样本相对匮乏,使得模型难以应对不确定性场景。此外,模型的概率生成架构更偏向输出概率最高的结果,而非保留多假设推理空间,进一步放大了早期诊断的误差。

这项研究的关键意义在于厘清了大模型在临床应用中的边界:当前阶段,模型无法直接承担独立诊断任务,其应用应局限于辅助医生决策的场景,比如提供治疗方案参考或病历结构化处理。若强行将模型用于早期诊断,可能增加误诊风险,进而引发医疗安全问题。

行业近期动态表明,针对这一短板,科技企业已开始针对性改进:2026年5月,微软与梅奥诊所联合推出医疗专用大模型MedGPT-2,通过引入10万+早期诊断病例样本训练,强化多假设推理模块,初步测试中早期鉴别诊断错误率降至45.2%;其他企业也纷纷跟进,OpenAI于2026年6月宣布GPT-5.1版本将新增“临床推理树”功能,模拟医生的分层诊断思维,允许模型输出多个假设及其证据链;Anthropic也同期推出Claude 4.5 Medical版,优化了症状与病因关联的概率建模,提升了不确定性场景下的推理鲁棒性。

目前来看,大模型在医疗领域的应用仍处于迭代阶段,早期诊断的推理能力短板是下一步技术突破的核心方向。后续需要整合更多临床真实数据、引入专业医疗知识图谱,并优化模型的推理架构,才有望逐步缩小与人类医生在诊断能力上的差距。

作品声明:内容由AI生成