关键词:
分布式系统
主题爬虫
文本相似度
LDA主题模型
Solr检索
摘要:
21世纪是信息时代,是大数据时代。互联网上的数据量增长飞快,已至ZB级别。面对如此庞大且多种多样的数据,搜索引擎也需要朝着更精准的方向发展。通用搜索引擎搜索的结果范围广,数据多,准确度低,用户不得不多花额外的时间去从返回结果中继续做筛选。相比于通用搜索引擎来说,垂直搜索引擎只搜集某一特定的领域下的数据和信息,可以向专业的用户提供更准确的搜索服务。中国互联网发展迅速,互联网数据丰富,如何充分地利用互联网数据为行业的发展提供及时有用的信息,本文设计并实现了一款面向专业领域的垂直搜索引擎。
本文研究内容主要包括:
搭建分布式框架和设计搜索引擎系统。本文采用Hadoop大数据框架搭建底层分布式系统,成功地部署计算机集群,提高系统的可伸缩性,提高系统算力和存储能力;本文将主题爬虫部署在集群上,以分布式模式运行程序,提高主题爬虫的效率与性能;本文采用分布式数据存储方案,提供数据副本,增强系统的容错率;建立索引以及检索模块,实现多种排序方式以及分类展示功能。
在主题爬虫一侧,本文优化爬虫链接抓取规则,改进基于向量空间模型的文本相似度算法。为了进一步提高主题资源的覆盖率和采集主题信息的相关性,本文在Nutch开源爬虫框架的基础上,根据胶带、胶粘剂主题特征和链接结构改进链接发现规则,提高了发现优质种子链接的速度;对链接指向的网页文本结合胶带胶粘剂领域文本的特点进行分析,综合词频和语义的向量空间模型,改进主题相似度算法,提高模型计算的准确性;扩展LDA主题提取模块,对已抓取的文档进行主题词语提取操作,加入到领域主题描述文档,进一步提高基于向量空间模型的相似度计算的准确度。
基于以上研究,本文以胶带、胶粘剂行业为例,对主题爬虫模块和搜索引擎系统整体进行了测试。分布式(三台服务器)主题爬虫相比于其它两种模式下的爬虫,站点的浏览速度提高了2~3倍,改进相似度算法后的爬虫查全率提高了15%。此外,系统能够提供简洁方便的用户搜索界面,并且满足多种检索结果排序及分类展示功能。