关键词:
领域本体
语义检索
查询语义扩展
文档语义重构
计算机组成原理
摘要:
随着计算机网络技术的飞速发展,网络教学这种不受时间和空间限制的教学模式越来越受到教学者的关注,成为传统教学的一个重要的补充。教学信息检索作为网络教学的重要部分,已经成为学习者获取知识资源的主要途经。目前常用的信息检索大多采用基于关键词字面匹配的检索方法,如布尔模型、向量空间模型等。这些检索模型在一定程度上满足了学习者的检索需求,但是对信息语义的揭示存在局限性,也缺乏对知识的处理和理解能力。
语义检索是一种基于知识的、语义上的分析检索,以语义理解为基础,将用户的检索请求、检索对象资源和检索结果都赋予一定的语义,采用概念匹配机制进行检索。针对当前关键字信息检索的不足,结合高等教育出版社的数字教育出版支撑平台项目,在研究本体和信息检索技术基础上,本文提出一种基于课程领域本体的语义检索(Ontology of Course Domain Semantic Retrieval,OCDSR)。通过领域本体对用户检索语句和文档资源进行一定程度的语义分析和处理,理解用户检索需求和挖掘文档潜在的语义信息,从而构建语义向量,实现语义检索。
本文工作主要包括:课程领域本体研究及创建、中文分词、语义检索模型研究以及检索系统的设计实现,重点关注于本体构建和语义检索模型研究。
①结合当前教学资源库的特点,制定教学资源库知识体系结构规范,为课程领域本体类(概念)层次划分提供理论基础,从而实现课程知识向领域本体的映射。以《计算机组成原理》课程为基础,提取课程知识概念及关系,创建课程领域本体,对本体的推理机制进行研究和应用,为基于本体的检索提供语义基础。
②采用中科院的汉语词法分析系统ICTCLAS对文档资源和检索语句进行分词,并结合领域本体作为知识库词典实现对专业领域词汇的识别。
③提出以向量空间模型为基础的语义检索算法,根据课程领域本体中的概念、关系及推理结果进行语义权重计算,实现文档资源的语义化重构和检索语句的语义化扩展,从而实现语义信息检索。并结合教学实际环境,在检索语句向量化过程中,对不同的语义关系分别进行扩展,以实现检索结果更加符合网络教学需求。
④根据高教社项目应用需求,设计并实现了OCDSR系统。系统能够较好挖掘文档资源潜在语义信息和理解用户检索请求,从而返回符合用户检索需求的教学信息资源,达到了网络教学环境语义检索的目的。通过实验定量对比分析了本文提出的语义检索算法相对传统算法的优势,在查准率和查全率方面有显著的提高。