关键词:
垂直搜索引擎
工业品
综合排序
摘要:
目前国内工业品电子商务的发展还在刚起步的阶段,供工业品电商使用的高质量搜索引擎目前国内还有待研发,本系统的目的就是给工业品电商平台提供一个快速搜索工业品的系统,在满足工业品电商的业务需求后优化用户的购买体验。工业品垂直搜索引擎系统是出自上海鑫谊麟禾科技有限公司垂直搜索产品线的实际项目,属于中国传统搜索引擎行业。工业品垂直搜索引擎系统是以产品信息为基准,明确电子商务产品和其客户要求,进行针对产品的垂直搜索引擎业务。该项目主要包含三方面,数据引入、数据整合、垂直搜索系统的设计与实现。在分布式计算平台上完成基本信息引入、数据的分析处理以及数据的检索。数据引入包括基础数据建模、数据爬取。为公司运营人员提供维护基础数据的平台,同时使用了消息队列技术通知其他模块基础数据等变更。数据整合主要负责对引入的数据进行分析处理,它包含索引维护和实体图谱两个模块。索引维护使用了工厂模式优化代码结构降低代码耦合度,使用了中文分词、相似度算法等相关技术。实体图谱很好的解决了用户使用别名搜索商品的需求。相关索引以及实体图谱的数据使用非关系型数据库进行持久化。待数据处理后,将完成垂直搜索系统的总体设计工作并进行实现。包括搜索词处理、搜索、排序、聚合以及详情缓存。其中排序模块基于归并算法重写了双集合的排序方法,重写了集合运算方法,提高了排序性能。最后使用手机端的界面和用户实现互动。本人主要承担了产品数据加工引入模块的产品基础构建子模块的方案设计与开发,产品数据整合模块的索引维护子模块的产品设计与开发,搜索排序模块的检索词处理子模块、检索子模块与排序子模块的部分产品设计与开发。本论文完成的工业品垂直搜索引擎系统,经过功能性测试、性能试验和压力试验,检测结果能满足预期且符合了电商平台的要求,有着很大的实用性。