为了提供在临床学习和研究中使用GenAI的可靠证据,我们正在系统地评价顶级大语言模型,包括开源的,用于各种疾病的关键医疗任务,如诊断预测。下面的基准评分榜是ELHS 基准系统的研究进展,随着大语言模型的发展将不断更新。
Dataset | Diseases | OpenAI ChatGPT-4 | Google Gemini-1.5 | Baidu Ernie-4 | Date |
---|---|---|---|---|---|
神经内科疾病 | 63 | 93.22% | 92.14% | 90.56% | 20240509 |
肿瘤 | 112 | 85.98% | 86.22% | 89.88% | 20240404 |
More ... |
Dataset | Diseases | OpenAI ChatGPT-4 | Google Gemini-1.0 | Baidu Ernie-4 | Date |
---|---|---|---|---|---|
MCSC覆盖疾病 | 181 | 84.81% | 74.59% | 78.73% | 20240404 |
More ... |