关键词:
查询优化
分布并行处理
信息网模型
数据划分
跳对象
摘要:
伴随着互联网时代的来临,数据以惊人的速度增长,目前全球数据通信量已经到达ZB级。大数据时代呈现出三大特征,分别为数据量大、种类多、实时性,这对现有的数据库系统提出了挑战。针对大数据,传统的集中式存储方式由于可靠性低、扩展性差等缺点不再适用,分布式存储并行处理成为首选。针对种类多,主流的关系型数据库对结构化数据可以高效地管理,但是却不能表示半结构化、非结构化数据的语义信息。信息网模型(INM,Information Networking Model)是一种新型的语义数据模型。它可以基于语义自然地表示现实世界中的实体对象和他们的各种语义关联。分布并行信息网系统(DPINM,distributed parallel information networking model database management system)是信息网系统的分布并行扩展。该系统继承了信息网系统的优点,同时采用无共享分布式系统架构,用于语义大数据存储。那么如何在海量语义数据中高效地查询成为一大挑战,本文主要基于信息网模型,就分布式环境下的查询实现及其优化策略进行了深入研究。在分布式集群系统中,由于数据分布存储,集群中单独的某个节点不再能独立地完成查询任务。它需要借助其他节点提供数据信息,这就为查询处理引入了新的开销-网络通信开销。其中对于需要大量跳对象操作的复杂查询来说,这样的网络开销极大。针对由于数据分布存储引起的查询网络通信问题,目前的研究可以从数据划分算法和查询执行计划两个方面进行改善。基于RDF的分布式查询系统大多同时考虑数据划分算法和查询策略对查找效率的影响,从整体上提出高效的分布式RDF处理系统。因此本文基于上述背景,分别基于两种不同的数据划分策略给出了相应的查询执行优化方案。在基于一致性哈希数据划分算法下,数据负载均衡地分布在集群节点中。此时通过将查询任务划分成多个子查询并行可以极大地提高查找效率。然后,仅仅通过并行会导致网络中存在大量冗余数据回传,控制器的合并任务加重。因此,本文提出了基于通信量的查询划分算法。基于通信量的查询划分算法同时考虑并行性和中间结果对查询效率的影响,通过评估一个查询任务的复杂度和通信量,将其划分成多个PWOC(parallelizable without communication)的子查询。所有子查询可近似无通信地并行执行。在基于信息网模型特点的organization数据动态调整算法下,关联度紧密的数据存储在一个数据节点。因此在这种数据分布下,采用简单的查询处理策略更有利于查找。最后,本文提出了轻量级的基于消息的查询处理策略,该策略通过在跳对象时构造新的查询任务并利用消息回传机制降低网络通信量。最后,系统基于DBpedia资料集生成测试数据,将原始查询算法分别与两种方案下的查询优化算法进行了对比实验,结果表明查询优化算法可以提高查询的效率,复杂查询更加明显。与此同时,系统还对基于通信量的查询优化算法下子查询任务的均衡性进行了测试与分析,最后证明该算法具有较好的任务均衡效果。