关键词:
二级数据仓库
数据提取
增量更新
数据驱动
电子商务
摘要:
在信息增长迅猛的今天,数据呈现出海量、分布和异构的特点,这使得集中式数据仓库在数据分析处理能力方面越来越有局限性。基于分布式数据仓库具有维护成本低、数据整合性强、高容错力、高效性和存储空间几乎不受限的特点,分布式数据仓库环境针对一些特殊情况更具优势,典型的例子有银行和电子商务平台。
课题以一种SaaS模式的平台为研究背景,它的特点是面向具有相同业务模式的、多小微型企业。虽然企业用户的业务模式相同,但企业之间相互独立,各自的营销策略不尽相同。综上所述,平台采用多数据库系统方式,为每个企业用户创建独立的表空间,不同表空间中对应的业务表结构相同。为满足对企业自身和平台的不同数据分析需求,需要通过建立数据仓库来实现。通过对集中式和分布式两种不同数据仓库结构的分析与对比发现,分布式数据仓库结构的高容错能力和高存储性能更适于具有不同分析需求的平台应用。
数据仓库集成技术研究的主要问题包括:逻辑模型设计、数据ETL过程、数据传输策略和元数据管理,因此解决上述问题是方案设计与实现的重点。结合研究背景,系统整体设计可划分为两部分:一是面向企业用户和后台管理员的数据分析部分;二是面向后台管理员的数据仓库管理部分。第一部分在电子商务云平台和云管理系统中都有体现,第二部分集成在云管理系统中。基于上述不同需求,两级数据仓库的逻辑模型从分析主题和粒度方面存在着差异,因此需要分别进行设计,最后通过开源分析展示工具向用户展示可读性强的数据分析结果。对于数据仓库管理部分,重点在于实现手动创建数据仓库的功能。对于数据处理部分,根据目标表的更新频率可将数据分为实时型和延迟型两种,从数据抽取、转换和传输三个方面进行分析并给出实现方法。针对数据传输策略进行研究,文章首先总结概括出上级轮循调度和下级数据驱动两种策略,通过时间对比发现数据驱动策略更适用于本平台。元数据管理模块同样是课题研究的重点。除对数据仓库建立和数据ETL过程产生的元数据进行管理外,文章创新性地针对逻辑模型完整性进行管理,并提供实现恢复维度表/事实表的功能。
本文还针对数据驱动策略的时间效率问题进行了研究,通过模拟实际应用环境的实验,结合实验结果的对比分析得出利用Oracle11g提供的表分区技术能够提高数据传输效率的结论,为今后的深入优化奠定理论基础。