关键词:
人工智能
大型语言模型
中医执业医师资格考试
模型评价
摘要:
目的 评估不同大型语言模型在中医执业医师资格考试中的应用表现。方法 选用中医执业医师资格考试题库中的不同学科对文心一言4.0、ChatGPT4.0、百川大模型3.0、Claude3-Sonnet、智谱清言4.0共5种大型语言模型进行答题准确率测试。结果 文心一言4.0和百川大模型3.0在中医不同学科上的总准确率最高,而智谱清言4.0的总准确率最低。从不同中医学科目上比较,5种模型在中医内科学和中药学上准确率较高,但在方剂学和中医经典等需要理解中医古文典籍或应用能力方面的科目上,模型准确率较低,且各模型之间存在差异。结论 不同模型的表现差异表明,模型的表现受训练数据的内容、质量及模型自身逻辑推理能力等多方面因素的影响。随着人工智能技术的不断迭代发展,将模型作为教学辅助工具,有望推动教育领域的变革。通过加强模型在特定专业领域的训练,可以进一步提升模型对相关专业术语的理解和应用能力,更好地满足教学领域的实际需求,进而提升教学质量和学习效率。