关键词:
个性化推荐
Spark
搜索
分布式系统
大数据计算
摘要:
如今互联网发展迅速,随着其影响力的增加,互联网中的信息量也在呈爆炸性增长,能够帮助用户从海量信息中筛选出用户需求信息的系统也就应运而生,其中搜索引擎和推荐系统都是一种解决方案。搜索引擎的应用场景是用户需要精确查询自己想获得的数据,但是信息爆炸导致搜索出的结果很多,依然需要用户自行筛选,还有就是用户的搜索不一定能够准确描述需要搜索的内容,模糊的搜索词也会给搜索引擎得到用户希望的结果带来麻烦。于是本文希望能将搜索和推荐结合起来,使用搜索引擎提供数据来源,使用推荐系统的优点解决搜索引擎的不足。围绕上述主题和目的,本文主要研究使用大数据技术和工具设计并实现一个面向视频的搜索推荐系统。从系统功能模块上,本系统主要分为数据处理模块、搜索模块、推荐模块和web模块,从系统具体技术实现上,本系统着重介绍了以下三个方面。数据存储系统由传统关系型数据库和NOSQL数据库结合构成,保证了多种不同类型数据的高速存取和存储系统的高容量、低成本、高速率三者的有机统一。数据处理和计算主要使用了kafka和spark的体系,不仅实现了系统数据处理过程的稳定可靠,也实现了高效处理大批量的流式数据和定时处理数据离线计算,保证了系统整体效率。结果展示使用Java相关技术,搭建了前后端分离的web系统,借助浏览器实现对系统的交互使用和对结果的展示。本系统的主要功能以及作用有以下几点。在视频搜索中引入了个性化推荐功能,提升用户的搜索效率,使用多种数据训练推荐模型,配置不同的推荐算法,提供多样化的推荐功能。最终系统在实现既定功能目标的同时,在层次化设计和分布式集群计算两种思想的指导下,保证了系统各项性能指标,并最终通过系统测试进行了验证。