关键词:
数据集构建
命名实体识别
关系抽取
课程知识图谱
问答系统
摘要:
近年来,国家大力支持智慧教育产业和人工智能产业,促进了教育信息化的发展。各类智慧教育课程和平台涌入大众视野,为用户学习带来便利的同时也引发了一个问题,即对于那些知识点较多的课程,特别是数据结构这类逻辑性强、抽象概念多且与其他专业课程联系紧密的课程,学习者在自学过程中很容易遇到抽象概念难以理解,知识关系难以掌握的问题。因此有必要对数据结构课程中的知识和知识间关系进行梳理。
数据结构课程中知识实体专业性强,针对该课程进行的命名实体识别和关系抽取研究较少,且当前主流研究所用的预训练模型缺乏特定领域知识。为解决这些问题,通过对收集的教材和网络资源进行分析整理,本文构建了可用于数据结构课程知识点实体识别和关系抽取的数据集,并以该数据集为研究对象,提出一种基于增量预训练和多语义特征融合的命名实体识别模型,以及一种融合序列信息和对抗训练的Cas Rel改进模型。该命名实体识别模型首先采用DSRo BERTa增量模型进行文本表征得到词嵌入向量,其中DSRo BERTa是通过在大量计算机相关语料上,对现有的Ro BERTa模型进行增量预训练得到的。接着引入对抗训练对每个嵌入向量进行扰动,将经过对抗扰动处理的样本输入到多语义特征捕获层,以进行更深入的特征提取,最后将输出的特征向量送入解码层进行修正并输出。该关系抽取模型同样先采用DSRo BERTa增量模型将丰富的先验知识迁移到本任务中,接着在Cas Rel模型的头实体解码层的基础上,利用双向长短时记忆网络捕获上下文潜在语义特征,之后通过多头注意力机制使模型专注于序列中的关键信息,提升模型对头实体位置的识别能力,经过尾实体解码层,最终抽取出序列中的三元组。另外,在关系抽取模型中引入对抗训练,提升了模型的鲁棒性和泛化能力。
实验结果显示:在自建数据集上,本文提出的命名实体识别模型准确率、召回率和F1值分别达到了96.12%、95.30%和95.71%,识别效果高于实验对比模型;本文提出的关系抽取模型与Cas Rel模型相比,F1值提升了1.2%,表明该模型对知识关系抽取的有效性。最后,本文利用抽取出的知识实体和关系构建了面向数据结构课程的知识图谱,并基于该知识图谱,结合Flask、TailwindCSS等Web框架,设计开发了数据结构课程知识问答系统。该系统能够高效地回答课程相关的问题,实现了课程知识图谱与学习者的双向交互,推动了知识图谱对学科教育信息化的建设。