2.3亿。这是每周向ChatGPT咨询健康问题的用户数——相当于法国和德国的人口总和。2026年6月18日,OpenAI做了一件反常识的事:将原本只在付费推理模型里具备的前沿健康能力,完整注入完全免费的GPT-5.5 Instant。后者在健康评估上的表现已逼近前沿Thinking模型。
三个数据,一条逻辑链
OpenAI披露了三组核心数据。第一,在HealthBench和HealthBench Professional上,Instant得分已接近5.5 Thinking——两者推理成本相差数倍。第二,医生盲审3,500条交互显示,Instant在准确性、沟通清晰度、完整性上高于医生撰写的答案,且失败模式更少。第三,过去两个月,生产环境健康回复事实性问题标记率下降71%。
260名医生、70万次标注的闭环
关键机制是知识蒸馏:让Thinking模型作教师生成优质回答,Instant作学生学会回答模式而不重复推理成本。而医生评审是蒸馏的优质教材——260+名医生、60国、49种语言、26个专科评审了超70万条回复,结果既做监督微调也做偏好训练。背后由前Google Med-PaLM负责人Karan Singhal主导构建了HealthBench评估体系。他说:一旦你知道如何评估它,改善就变得容易得多。
最难的不是知识,是不确定性下的行为
核心突破不在医学知识,而在行为训练。模型学会:识别何时需紧急就医、主动追问缺失信息、清晰解释不确定性、帮助用户理解下一步。同期NEJM AI合作研究显示,o3 Deep Research帮助波士顿儿童医院在376例未解罕见病例中发现18个新诊断。OpenAI由此形成三层产品矩阵:免费Instant(日常场景)→ChatGPT Health(个性化分析)→付费推理模型(疑难诊断)。
谁会被震动?
垂直医疗AI赛道首当其冲。Google Med-PaLM已遭削减投入,一篇同期Nature Medicine研究发现通用大模型在盲审中全面超越了OpenEvidence等专门化临床AI工具——专业化本身不能转化为更好的临床性能。当免费模型学会追问,WebMD等静态医疗信息站同样面临结构性威胁:ChatGPT提供的是持续追问的对话,而不是一篇静态文章。
AI能力的上限,正在从模型参数规模转向反馈信号的质量。260名医生、70万次标注——没有更大的模型,没有更多的推理算力——谁能构建更高质量的反馈闭环?这或许是2026年上半年,AI行业最被低估的一个判断。






快报