关键词:
域名
知识图谱
ALBERT_ZH
TextCNN
搜索引擎
摘要:
随着互联网的快速发展和网络用户的急速增加,以及各种网络应用服务的广泛使用,逐渐使得网络空间成为了人类生产生活的主要空间,所以需要加强对网络空间的合法规范化管理,而域名作为人们通向网络空间的入口,其安全性对拥有良好的网络空间环境起着决定性作用,因此网络监管部门应该加大对网站域名安全性的监测管理力度。但是由于目前全世界注册的域名数量多达几亿,无法对所有域名进行监测管理,因此,基于工信部工业互联网创新发展工程新型标识项目,本文构建了专属于域名信息领域的知识图谱,并基于构建的域名数据设计开发了域名绘制系统,作为该项目的应用支撑子系统,来监测管理网络空间中的国内重点中文网站域名。本系统主要以项目中的异常预警和访问量高的域名,以及国内的重点域名作为目标对象,构建专属于重点域名领域内的知识图谱,设计实现域名信息领域内的搜索引擎,并对域名属性信息关联性进行分析展现。通过对国内重点域名属性信息的采集管理、精准检索和分析,有助于国家网络安全管理局等网络空间监管部门及时精准的获取国内重点域名的管理信息,并全面的了解国内互联网中重点域名服务的分布情况、域名间的关系、及企业拥有的重点域名规模等域名的运行发展情况,为网络空间的安全管理监测提供有力支撑。本文的主要工作内容如下:(1)构建专属于域名属性信息领域的知识图谱。首先以主被动结合的方式获取国内重点域名,通过解析出项目系统中产生的异常预警域名解析日志和访问量较高的域名日志中的域名,以及爬取国内部分重点域名的方式获取国内重点域名作为本系统中的域名主体。然后利用Scrapy爬虫框架对域名的whois信息、网站备案信息、IP地址和域名证书信息等多维属性信息进行采集。最后合理设计三元组关系,利用图数据库Neo4j对采集处理后的域名信息数据进行存储,完成知识图谱的构建。(2)本文以构建的域名知识图谱为基础,设计实现了专属于域名信息领域的搜索引擎,为了提高搜索引擎的准确度,本文对文本分类模型Text CNN进行了研究和优化。通过对域名领域的问题文本特征的分析得出,该领域文本具有文本短、字数少、特征稀疏和文本数据专业性强、数据集较少的特征,基于这些文本特征,本文从Text CNN模型输入层的文本向量表示和卷积层的模型参数调整这两方面对模型进行了优化。首先针对文本中专业词语对文本分类的影响,本文提出采用关键词词典方式将文本中的专业词语替换为固定词后,再对文本进行向量化表示;然后针对文本特征稀疏、数据集规模有限和传统word2vec方式不能对文本中的多义词进行动态表示的问题,本文引入ALBERT_ZH模型对输入文本的特征进行提取;最后针对Text CNN模型卷积核大小对具体文本任务执行效果的影响,本文通过先找出最佳的单个卷积核的大小后,然后探索该值附近和距离较远的几个不同的区域大小下该模型的分类效果,最终得到适用于域名问题分类的最佳区域值,进一步了提高Text CNN模型的文本分类效果。(3)基于构建的域名知识图谱,进行域名信息搜索引擎的设计和域名属性信息的分析,完成对域名信息的绘制。通过利用Django框架,并结合实验对比得出的文本分类算法,设计实现域名信息领域的高性能搜索引擎,同时通过对域名多维度属性信息的分析,获取并可视化的展现重点域名之间的域名关系、域名备案单位拥有的域名规模、域名应用类型占比和IP地域分布等情况,直观的了解域名的动态发展规律。