GenAI基准测试

GenAI 医疗任务基准测试

ELHS 基准测试系统

生成式 AI 正在改变医疗保健服务。然而，在将 GenAI 应用于医疗实践之前，首先需要了解 LLM 能够准确预测哪些特定医疗任务。传统上，LLM 是根据一些标准医学问答数据集进行基准测试的，包括医学执照考试。这些测试通常是选择题，不能完全代表医生在现实世界中面临的临床情况。

为了更真实地基准测试医疗任务，我们自己研发了的一个新的 ELHS 基准测试系统，首先对顶级 LLM 在各个专业和疾病的关键医疗任务进行系统评估。由此产生的基准测试评分榜将逐步提供顶级 LLM 在患者症状检查、诊断预测和治疗选择预测中的表现基线。我们在此公布医疗GenAI基准评分榜，并将随着更多数据集的创建和 LLM 技术的发展逐步更新评分榜。

基准测试使用简单的前两名得分来计算总体准确率。疾病覆盖范围越广，整体准确率越可靠。单个疾病的准确性会有所不同。更多详情请参阅我们与斯坦福大学田教授合作发表的 JAMIA 论文。

基准的用途

我们从基准研究初步结果得出结论，通用大语言模型在预测许多医疗任务中已达到足够高的准确率，医生、医学生和医务人员在实际医疗环境中可使用 GenAI 做学习和研究工具。

从基准评分榜，平台用户可以了解到GenAI对哪些疾病、哪些医疗任务有效，从而帮助他们选择在自己的临床服务中可应用AI解决什么问题。同时，如果自己的临床服务有GenAI不能达到的特长或能力，可考虑通过微调开源LLMs，把自己的特长转换成人工智能，更有效的优化临床服务和扩大在医学界的传播。

GenAI 医疗任务基准测试

ELHS 基准测试系统

基准的用途

医疗GenAI基准评分榜：(work in progress)