Nature旗下期刊发布医疗AI评估新标准未来医生MedGPT位列全球第一_卫生健康_健康频道

Nature旗下期刊发布医疗AI评估新标准未来医生MedGPT位列全球第一

发布时间：2026年01月09日 14:26:17 来源：新华网

　　原标题：Nature旗下期刊发布医疗AI评估新标准，未来医生MedGPT位列全球第一

　　近日，数字医学领域期刊《npj Digital Medicine》（Nature旗下学术期刊）发布了一项来自中国科研团队的最新研究成果——全球用于评估医疗AI临床适用性的标准：“临床安全-有效性双轨基准”（CSEDB，Clinical Safety-Effectiveness Dual-Track Benchmark）。

　　这是中国团队首次在该期刊发表“大语言模型+医疗”领域的相关标准研究。CSEDB的创立为医疗大模型的迭代优化指明了方向，也为医疗AI进入严肃诊疗场景奠定了基础。同时，在基于这一标准对全球多个主流AI模型开展的系统性测评中，由中国未来医生团队打造的MedGPT各项评分均位列全球第一。

　　此次经全球期刊验证的CSEDB评估标准，由未来医生科研团队联合32位国内临床专家共同制定。这些专家均来自北京协和医院、中国医学科学院肿瘤医院、中国人民解放军总医院、复旦大学附属华山医院等23家医疗机构的核心专科。

　　这套新标准打破了过往以答题准确率评估医疗AI能力的模式，在全球范围内首次引入“安全性”与“有效性”双轨评价体系，全面贴合真实临床决策场景。

　　评估维度涵盖30项核心指标，其中17项聚焦安全性，包括危急重症状识别、致死性诊断失误、绝对禁忌用药等关键场景；13项聚焦有效性，包括多病并存优先级、诊疗方案与指南一致等核心需求。同时，CSEDB按临床风险等级对每项指标加权打分，分值从1分到5分不等，5分对应“潜在致命后果”，如剂量与器官功能失配等高风险情境；1分对应“可逆性伤害”，如病例与检查报告专业解读准确性等场景。

　　在测试方法上，CSEDB也打破了以往“标准问-标准答”的静态模式。基于上述指标，整套评估体系共构建了2069个开放式问答条目，覆盖26个临床专科，全方位模拟临床诊疗的复杂场景。

　　CSEDB的建立，意味着AI时代首次诞生了一套能真实反映医疗AI临床诊疗能力的系统化评估标准。全球主流大模型悉数参与测试，包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7等。

　　在这场系统性测评中，未来医生自研的AI医疗认知系统MedGPT总体得分（0.985）、安全性得分（0.912）、有效性得分（0.861）三项核心指标均位列全球第一。