基准评分榜

为了提供在临床学习和研究中使用GenAI的可靠证据，我们正在系统地评价顶级大语言模型，包括开源的，用于各种疾病的关键医疗任务，如诊断预测。下面的基准评分榜是ELHS 基准系统的研究进展，随着大语言模型的发展将不断更新。

Dataset	Diseases	OpenAI ChatGPT-4	Google Gemini-1.5	Baidu Ernie-4	Date
神经内科疾病	63	93.22%	92.14%	90.56%	20240509
肿瘤	112	85.98%	86.22%	89.88%	20240404
More ...

Dataset	Diseases	OpenAI ChatGPT-4	Google Gemini-1.0	Baidu Ernie-4	Date
MCSC覆盖疾病	181	84.81%	74.59%	78.73%	20240404
More ...