生成式 AI 正在改变医疗保健服务。然而,在将 GenAI 应用于医疗实践之前,首先需要了解 LLM 能够准确预测哪些特定医疗任务。传统上,LLM 是根据一些标准医学问答数据集进行基准测试的,包括医学执照考试。这些测试通常是选择题,不能完全代表医生在现实世界中面临的临床情况。
为了更真实地基准测试医疗任务,我们自己研发了的一个新的 ELHS 基准测试系统,首先对顶级 LLM 在各个专业和疾病的关键医疗任务进行系统评估。由此产生的基准测试评分榜将逐步提供顶级 LLM 在患者症状检查、诊断预测和治疗选择预测中的表现基线。我们在此公布医疗GenAI基准评分榜,并将随着更多数据集的创建和 LLM 技术的发展逐步更新评分榜。
基准测试使用简单的前两名得分来计算总体准确率。疾病覆盖范围越广,整体准确率越可靠。单个疾病的准确性会有所不同。更多详情请参阅我们与斯坦福大学田教授合作发表的 JAMIA 论文。
我们从基准研究初步结果得出结论,通用大语言模型在预测许多医疗任务中已达到足够高的准确率,医生、医学生和医务人员在实际医疗环境中可使用 GenAI 做学习和研究工具。
从基准评分榜,平台用户可以了解到GenAI对哪些疾病、哪些医疗任务有效,从而帮助他们选择在自己的临床服务中可应用AI解决什么问题。同时,如果自己的临床服务有GenAI不能达到的特长或能力,可考虑通过微调开源LLMs,把自己的特长转换成人工智能,更有效的优化临床服务和扩大在医学界的传播。