关键词:
垂直领域搜索引擎
主题网络爬虫
DistilBERT模型
数据处理
摘要:
近年来,随着网络数据量飞速增长,人们利用传统搜索引擎检索特定领域信息时常面临着覆盖率和准确率的双重挑战。这种情况突显为特定需求定制搜索策略的重要性和紧迫性。因此,垂直领域搜索引擎数据处理系统的研究得到广泛关注。
主题网络爬虫是垂直领域搜索引擎数据处理系统的起始环节,但其在多语言环境中还面临应用局限性、主题判别精度不足和计算资源耗费较高等问题。优秀的商业搜索引擎爬虫技术并未公开。并且,由于网页结构的多样性和数据定义的差异性,开源的主题网络爬虫为垂直领域搜索引擎抓取网页数据时仍存在采集速度受限和智能化程度不够等问题。
为了解决上述问题,本文研究并实现垂直领域搜索引擎的数据处理系统,能够针对某一垂直领域搜索引擎数据进行筛选优化,为垂直领域搜索引擎提供精确度较高的数据源。主要研究内容如下:
(1)提出一种网页文本垂直领域主题判别模型TLMDBP(TFIDF_LDA_Multilingual_DistilBERT_Pretrained),旨在分析与特定垂直领域的相关页面。TLMDBP模型采用Multilingual_DistilBERT模型做领域预训练得到MDBP模型(Multilingual_DistilBERT_Pretrained),再基于TF-IDF算法优化的LDA主题模型与MDBP模型相结合,增强网页文本判定中的上下文语义信息。通过对比实验验证,本文的模型提升了领域主题判别精度,降低了资源消耗。
(2)提出一种智能化网页数据采集方法,自动解析网页数据定位、识别数据结构、提取数据并分类存储。针对网页布局的复杂性和数据结构的多样性,该方法采用随机森林将网页分为数据列表类和文本详情类,利用Selenium、DOM和正则表达式设计数据采集模型,生成网页元素XPath表达式和识别数据结构特征,实现对不同类型网页数据的自动定位和提取。此外,利用网页数据结构特征设计混合式分类存储方案,将结构化数据和非结构化数据分别存储于MySQL和MongoDB中。通过对比实验验证,该方法可显著增强网页数据采集的自动化能力。
(3)本文将研究的垂直领域主题判别模型和改进的智能化网页数据采集方法应用于电子元件领域,实现了包括数据采集、处理及检索的垂直领域搜索引擎的数据处理系统。系统前端负责接收用户需求信息和数据展示,系统后端首先通过集成主题判别模型筛选领域相关页面,然后进行网页数据自动化采集并处理,接着利用Elasticsearch提供索引服务,最后引入Mistral-7B-v0.1的四位量化版模型识别用户对话式搜索的需求和意图,并结合本地数据做上下文搜索,从而支持对话式和上下文关联智能检索。
综上所述,本文研究了垂直领域搜索引擎相关的领域判别、智能网页数据解析、数据采集、分类存储和智能检索等工作,设计实现了相应的数据处理系统,能够按照用户需求解决领域数据采集、存储和检索效率低等问题,能展示用户检索数据并支持按自定义格式导出数据便于后续二次利用。本文的研究成果和相关技术可迁移应用于其他垂直领域,具有实际应用价值和发展潜力。