现有医疗诊断逻辑会被颠覆吗
来源:解放日报 作者:黄杨子 时间:2024-12-27 点击:
OpenAI医学模型测试成绩“好”过医生


日前,OpenAI公布一项研究成果:由哈佛医学院和斯坦福大学组成的科研团队,在医学诊断领域深入评估OpenAI的o1-preview模型,发现其比人类医生更擅长诊断棘手的医疗案例。相关消息引发了全球关注,医生真的在不久的将来会被取代吗?
诊断正确率近八成
记者在社交媒体平台上搜索到最早发布该信息的AI领域投资人迪迪·达斯(deedydas),其在原文中说:“根据(关于)OpenAI的最新论文,o1-preview在推理任务上远远优于医生,甚至有天壤之别。AI对143项困难的NEJM CPC诊断结果准确率分别为约80%至30%。现在相信你的医生而不咨询人工智能模型是危险的。”
据悉,自上世纪50年代以来,评估鉴别诊断生成器的首要标准是由《新英格兰医学杂志》(NEJM)发表的临床病理学会议(CPCs)病例,这也是评估o1-preview的首选基准。截至发稿前,该言论已引来107万次的浏览量。
根据研究报告,o1-preview正确诊断了78.3%的测试案例,在70个特定案例的对比测试中,准确率高达88.6%,显著优于其前身GPT-4的72.9%。此外,使用医学推理质量评估标准量表R-IDEA,o1-preview在80个案例中取得了78个满分。同时,经验丰富的医生在28个案例中获得满分,住院医师的这一数据则仅为16例。而在25位专家设计的复杂案例中,o1-preview得分高达86%,是使用GPT-4的医生(41%)和使用传统工具的医生(34%)的两倍多。
不过,研究人员承认该测试存在局限性,部分测试案例可能包含在o1-preview的训练数据中,且测试主要集中于系统单独工作,并未充分考虑其与人类医生协同工作的场景;此外,o1-preview建议的诊断测试成本高昂,在实际应用中存在局限性。
医学是科学也是“人”学
这并非AI与医生的首次“对决”。此前,在医学顶刊《美国医学会杂志》(JAMA)等期刊上,也曾有研究指出大语言模型在诊断基准测试中超越了人类。
“AI确实在病例诊断的初诊环节具有很强的辅助功能,但无论是现在,或是可以预见的将来,它都没有完全决策的能力。”上海市第一人民医院副院长、放射科学科带头人王悍说,“不可否认的是,成熟的AI模型的能力与住院医师是可以抗衡的,其优势在于完成重复性、细致度高的工作,比如肺小结节在体检场景中的筛查、心脑血管的重建。以往,大多数此类工作由住院医师人工扫描完成,大约耗时20分钟,现在基于AI的四维重建只需按秒计算,大大节省了临床医师的时间,还能减少患者的不适。”另一方面,AI也有劣势,所有的诊断均应建立在可靠、可重复的基础上,目前尚无样本量和覆盖面足够大且可靠的通用型模型,不同人种、国家、性别、年龄、文化水平等变量参数都可能造成评估误差,“因为医学不仅是科学,也是‘人’学”。
其实,AI在辅助决策中的准确率现阶段仍取决于患者的标准化,患者的心理因素、经济水平乃至社会关系都可能在真实的治疗场景中对方案产生影响,“AI或许可以完成多学科团队(MDT)对于单纯病理症状的评估并给出建议,但患者最终选择的方案,仍需医者以同理心从‘模棱两可’的选项中帮助其拍板”。
好医生应学会向AI借力
在王悍看来,虽然AI模型较难完全取代医生,但主动学习AI同时对其保持不依赖的心理,才是未来从事医疗领域工作的不二法则。“如果学不会向AI借力,在未来更精准、个性化的诊疗趋势中,医生会浪费更多宝贵的精力。但若过分盲信AI,就会成为‘被淘汰者’。”
11月30日,中国互联网络信息中心发布《生成式人工智能应用发展报告(2024)》,截至今年6月,我国生成式人工智能产品的用户规模已达2.3亿人。由清华大学智能产业研究院团队打造的首家“AI医院”预计2025年上半年对公众开放,医疗或将在不远的将来成为AI渗透生活的途径之一。
在上海,11月末也公布了首批5个医疗应用场景,包括中山医院的AI电子病历辅助书写、AI医健助手,东方医院的医生伴侣、科研助理及上海电信的就医小帮手等。东方医院AI医学大模型Med-Go创始人、急诊重症医学科主任张海涛说,精准高效的可解释性医学回复内容,是医学模型的核心竞争力,也是赋能医学提高临床应用的重中之重,“AI来源于医生,也服务医生与患者,让其助力人才队伍的高效培养与升级,最终将为患者带来更优的医疗体验”。
责任编辑:日升
诊断正确率近八成
记者在社交媒体平台上搜索到最早发布该信息的AI领域投资人迪迪·达斯(deedydas),其在原文中说:“根据(关于)OpenAI的最新论文,o1-preview在推理任务上远远优于医生,甚至有天壤之别。AI对143项困难的NEJM CPC诊断结果准确率分别为约80%至30%。现在相信你的医生而不咨询人工智能模型是危险的。”
据悉,自上世纪50年代以来,评估鉴别诊断生成器的首要标准是由《新英格兰医学杂志》(NEJM)发表的临床病理学会议(CPCs)病例,这也是评估o1-preview的首选基准。截至发稿前,该言论已引来107万次的浏览量。
根据研究报告,o1-preview正确诊断了78.3%的测试案例,在70个特定案例的对比测试中,准确率高达88.6%,显著优于其前身GPT-4的72.9%。此外,使用医学推理质量评估标准量表R-IDEA,o1-preview在80个案例中取得了78个满分。同时,经验丰富的医生在28个案例中获得满分,住院医师的这一数据则仅为16例。而在25位专家设计的复杂案例中,o1-preview得分高达86%,是使用GPT-4的医生(41%)和使用传统工具的医生(34%)的两倍多。
不过,研究人员承认该测试存在局限性,部分测试案例可能包含在o1-preview的训练数据中,且测试主要集中于系统单独工作,并未充分考虑其与人类医生协同工作的场景;此外,o1-preview建议的诊断测试成本高昂,在实际应用中存在局限性。
医学是科学也是“人”学
这并非AI与医生的首次“对决”。此前,在医学顶刊《美国医学会杂志》(JAMA)等期刊上,也曾有研究指出大语言模型在诊断基准测试中超越了人类。
“AI确实在病例诊断的初诊环节具有很强的辅助功能,但无论是现在,或是可以预见的将来,它都没有完全决策的能力。”上海市第一人民医院副院长、放射科学科带头人王悍说,“不可否认的是,成熟的AI模型的能力与住院医师是可以抗衡的,其优势在于完成重复性、细致度高的工作,比如肺小结节在体检场景中的筛查、心脑血管的重建。以往,大多数此类工作由住院医师人工扫描完成,大约耗时20分钟,现在基于AI的四维重建只需按秒计算,大大节省了临床医师的时间,还能减少患者的不适。”另一方面,AI也有劣势,所有的诊断均应建立在可靠、可重复的基础上,目前尚无样本量和覆盖面足够大且可靠的通用型模型,不同人种、国家、性别、年龄、文化水平等变量参数都可能造成评估误差,“因为医学不仅是科学,也是‘人’学”。
其实,AI在辅助决策中的准确率现阶段仍取决于患者的标准化,患者的心理因素、经济水平乃至社会关系都可能在真实的治疗场景中对方案产生影响,“AI或许可以完成多学科团队(MDT)对于单纯病理症状的评估并给出建议,但患者最终选择的方案,仍需医者以同理心从‘模棱两可’的选项中帮助其拍板”。
好医生应学会向AI借力
在王悍看来,虽然AI模型较难完全取代医生,但主动学习AI同时对其保持不依赖的心理,才是未来从事医疗领域工作的不二法则。“如果学不会向AI借力,在未来更精准、个性化的诊疗趋势中,医生会浪费更多宝贵的精力。但若过分盲信AI,就会成为‘被淘汰者’。”
11月30日,中国互联网络信息中心发布《生成式人工智能应用发展报告(2024)》,截至今年6月,我国生成式人工智能产品的用户规模已达2.3亿人。由清华大学智能产业研究院团队打造的首家“AI医院”预计2025年上半年对公众开放,医疗或将在不远的将来成为AI渗透生活的途径之一。
在上海,11月末也公布了首批5个医疗应用场景,包括中山医院的AI电子病历辅助书写、AI医健助手,东方医院的医生伴侣、科研助理及上海电信的就医小帮手等。东方医院AI医学大模型Med-Go创始人、急诊重症医学科主任张海涛说,精准高效的可解释性医学回复内容,是医学模型的核心竞争力,也是赋能医学提高临床应用的重中之重,“AI来源于医生,也服务医生与患者,让其助力人才队伍的高效培养与升级,最终将为患者带来更优的医疗体验”。
责任编辑:日升
网友评论
相关内容

眼泪诊断疾病,30秒出结果
上海医学团队研发糖尿病性白内障无创诊断新技术 摄影/日升 (记者唐闻佳)...AI让医生“变笨”?《柳叶刀》新研究:撤掉辅助系统后,医生诊断
AI让医生变笨?《柳叶刀》新研究:撤掉辅助系统后,医生诊断成功率下降约20...
住院预交金降了,医疗服务能不能跟得上?
【医界观察】 作者:王刘安(中国科技情报学会健康信息学专委会委员、北京...医院对车祸伤者查梅毒被质疑过度医疗,院方:正常检查
医院对车祸伤者查梅毒被质疑过度医疗,院方:正常检查 极目新闻记者 刘毅 ...夸大病情、乱做手术、私加费用……湖北一医院被曝上百起过度医疗
夸大病情、乱做手术、私加费用湖北一医院被曝上百起过度医疗事件 125份抽查...