关键词:
计算机网络
知识图谱
自然语言处理
知识抽取
摘要:
高职《计算机网络》课程涉及大量的专业术语和关系,对初入高职的学生来讲,理清知识脉络较为困难;且高职院校一般采取项目制的实操教学,讲解理论知识时间少。此时,如果有一个计算机网络领域的知识图谱,可以清晰的展示不同概念之间的关系,将对学生理解知识提供很大帮助。
因此,本文以湖南科技大学高军老师编著的《深入浅出计算机网络》教材为知识来源,运用NLP(Natural Language Processing)技术开展计算机网络知识图谱构建研究,并将构建完成的图谱作为知识库应用于计算机网络领域的知识问答。
本文的主要工作如下:
(1)从职业教育数字化、《计算机网络》课程的重要性、高职院校计算机网络教学中存在的问题三个方面探究了本课题研究的必要性;全面梳理了NLP技术和知识图谱的发展史、主要研究内容和主流的研究方法。
(2)对构建计算机网络领域知识图谱的全流程进行分析,并对过程中涉及的本体构建、知识抽取、知识融合与存储等关键技术做了介绍。使用protégé软件完成了面向高职学生的计算机网络知识图谱本体设计。
(3)从《深入浅出计算机网络》教材中收集数据,并用YEDDA工具标注用于命名实体识别。运用Py Torch搭建BERT(X)-Bi LSTM-CRF模型,开展命名实体识别实验,并对结果进行评估。
(4)对每条数据按照“[数据,关系,头实体,头实体首字位置,尾实体,尾实体首字位置]”格式进行标注,构建用于关系抽取的数据集。基于Py Torch框架搭建Ro BERTa-CNN模型进行关系抽取实验,并对结果进行评估。
(5)采用实体对齐技术将同义不同名的实体进行统一;使用LOAD CSV方法将数据导入Neo4j图数据库。使用protégé软件,对实体进行属性补全,并采用格式转换的方法将protégé软件中的属性知识存入Neo4j。最后以构建的Neo4j图数据库作为知识库开展知识问答研究。
实验结果表明,Ro BERTa-Bi LSTM-CRF模型和Ro BERTa-CNN模型在计算机网络领域的实体识别和关系抽取中效果良好;基于NLP技术构建的知识图谱可以有效提高学生学习计算机网络知识的效率。