关键词:
图数据
图结构分析
最小描述长度
语义结构挖掘
图编码
摘要:
在现今网络高速发展的时代,网络空间数据与日俱增。这些大量的数据包含了现实生活中人们的隐私和信息。通过网络空间数据挖掘方法对这些数据进行信息提取,同时挖掘出数据所包含的隐私信息,是当前社交网络结构分析和网络空间安全研究的一个重要方面。出于理论研究和应用的需求,需要对大规模的网络数据进行压缩,同时进行拓扑结构挖掘,分析和理解其拓扑语义。本文研究了在当前安全背景下网络空间中的结构数据以及图拓扑数据的结构分析问题。重点研究了子图重叠结构挖掘、子图结构语义识别与分析和图结构挖掘的问题。本文的图分析方法主要适用于社交网络,但是也可以应用到具有幂律分布的其他网络类型中去。论文通过引入最小描述长度准则,作为子图聚类、子图语义结构识别和图结构模型评估的判别标准。为统一挖掘图中的多样子结构,本文通过基于枢纽点的子图分解算法和基于自网络的子结构聚合算法,根据几类子图的短径长共性进行挖掘,获得图的分解以及子图集合。随后通过最小描述长度准则以及图编码算法对子图的结构语义进行统一地识别和挖掘。最后借助最小描述长度,将子结构组合获得图的拓扑结构聚集。通过本文的研究,对图的结构进行了挖掘和语义分析,理解了网络的结构。实验表明,本文的方法对图的拓扑结构是一个相对较好的压缩、挖掘和理解。本文充分利用了最小描述长度准则。在图结构挖掘上,通过最小描述长度准则确定了图合并的条件和子图间的重叠关系;在图的编码和结构语义挖掘上,仍然利用最小描述长度帮助识别子图类型,结合引入应对稀疏结构的树结构模板,获得了对当前图结构聚集算法Vog的一个改进。