关键词:
云计算
大数据
数据分析
数据挖掘
Hadoop
MapReduce
HDFS
摘要:
近年来伴随着云计算技术和大数据处理技术的飞速发展,数据分析与数据挖掘等领域在企业中越来越被重视。通过对数据的处理,可以帮助优化现有的业务处理流程,甚至为企业制定今后业务的发展方向提供必要的数据支持。所以在各个行业各个领域里,数据已经变成企业的财富,希望利用新兴数据处理技术获取数据的潜在价值。在每个企业发展过程中,无疑积累了大量的与销售活动相关的数据。这些数据中囊括了客户信息、产品信息和合同信息等等,种类繁多且数据量庞大。然而,这些数据往往很少能够被充分利用,更多的是用作绩效考核以及信息查询。云计算技术及大数据处理技术出现之前,传统的数据处理方式已经不能在有效的时间范围内处理如此海量的数据。本课题利用云计算和大数据处理技术对隐藏在销售业绩背后的大量数据进行分析和挖掘,设计并实现一个高效的、易用的数据处理平台。希望通过本数据处理平台,可以帮助简化,甚至优化现有的业务处理流程,并能够为业务发展方向的制定提供必要的数据支持。本文首先介绍了本课题的研究背景和意义以及主要内容,然后对本课题中使用到的主要技术进行阐述。在此基础上,结合这些技术的特点、业务数据的特性和业务需求,论述了平台的设计方法和实现方式,提出了具体的系统解决方案。并重点对两个具有代表性的共通数据处理功能和跨平台数据聚合功能进行详细说明。最后通过系统测试验证功能的正确性,通过大数据量的测试验证数据处理的高效性。本课题寄希望借助云计算技术和大数据处理技术的特点,提高系统资源使用率的同时,可以把海量数据的处理时间控制在可以接受的范围内。数据分析和挖掘处理利用Hadoop的MapReduce计算框架对海量数据先拆分然后并行分析处理,使海量数据的处理速度达到质的提升。由于销售相关数据分布在多个独立的外部既存系统中,在数据分析处理之前需要把所有的相关数据聚集到本处理平台的基于Hadoop的HDFS(分布式文件系统)的数据仓库中。例如,客户信息需要从客户信息系统中获取,产品信息需要从产品管理系统中获取,合同信息需要从合同管理系统中获取等等。另外,为了确保本数据处理平台的数据有效性,将会定期与其他外部既存系统同步所管理的信息。基于用户可操作性的考虑,本数据处理平台以网页的形式呈现给用户。用户可以通过网页提交每一个数据处理请求,然后通过网页查看处理结果或者下载处理结果文件。网页作为与用户的接口,需要简单实用,便于用户操作。数据处理结果以表格、图表等形式呈现给用户,方便用户查看,同时用户也可以下载原始的数据文件。目前,本数据处理平台的系统设计和主要功能实现已经基本完成,某些次要功能还在设计并不断完善中。用户已经可以通过本数据处理平台获取数据分析结果,并给与了积极的反馈。同时,大数据处理功能和跨平台数据聚合功能的测试结果表明本数据数据处理平台的数据处理性能已基本达到了设计目的。