260位医生、70万次标注：OpenAI如何把前沿健康AI塞进免费模型

2026.06.19 20:24

OpenAI宣布GPT-5.5 Instant在健康评估上已接近Thinking模型水平，将前沿健康能力从付费推理模型免费开放给2.3亿周活用户。260+名医生、60国、49种语言评审超70万条回复，生产环境事实性问题下降71%。这不是一次普通更新——健康AI正从精英特权走向全民基础设施。

2.3亿。这是每周向ChatGPT咨询健康问题的用户数——相当于法国和德国的人口总和。2026年6月18日，OpenAI做了一件反常识的事：将原本只在付费推理模型里具备的前沿健康能力，完整注入完全免费的GPT-5.5 Instant。后者在健康评估上的表现已逼近前沿Thinking模型。

三个数据，一条逻辑链

OpenAI披露了三组核心数据。第一，在HealthBench和HealthBench Professional上，Instant得分已接近5.5 Thinking——两者推理成本相差数倍。第二，医生盲审3,500条交互显示，Instant在准确性、沟通清晰度、完整性上高于医生撰写的答案，且失败模式更少。第三，过去两个月，生产环境健康回复事实性问题标记率下降71%。

260名医生、70万次标注的闭环

关键机制是知识蒸馏：让Thinking模型作教师生成优质回答，Instant作学生学会回答模式而不重复推理成本。而医生评审是蒸馏的优质教材——260+名医生、60国、49种语言、26个专科评审了超70万条回复，结果既做监督微调也做偏好训练。背后由前Google Med-PaLM负责人Karan Singhal主导构建了HealthBench评估体系。他说：一旦你知道如何评估它，改善就变得容易得多。

最难的不是知识，是不确定性下的行为

核心突破不在医学知识，而在行为训练。模型学会：识别何时需紧急就医、主动追问缺失信息、清晰解释不确定性、帮助用户理解下一步。同期NEJM AI合作研究显示，o3 Deep Research帮助波士顿儿童医院在376例未解罕见病例中发现18个新诊断。OpenAI由此形成三层产品矩阵：免费Instant（日常场景）→ChatGPT Health（个性化分析）→付费推理模型（疑难诊断）。

谁会被震动？

垂直医疗AI赛道首当其冲。Google Med-PaLM已遭削减投入，一篇同期Nature Medicine研究发现通用大模型在盲审中全面超越了OpenEvidence等专门化临床AI工具——专业化本身不能转化为更好的临床性能。当免费模型学会追问，WebMD等静态医疗信息站同样面临结构性威胁：ChatGPT提供的是持续追问的对话，而不是一篇静态文章。

AI能力的上限，正在从模型参数规模转向反馈信号的质量。260名医生、70万次标注——没有更大的模型，没有更多的推理算力——谁能构建更高质量的反馈闭环？这或许是2026年上半年，AI行业最被低估的一个判断。

作品声明：内容由AI生成