关键词:
数据挖掘
关联规则
频繁模式
数据处理
摘要:
该文的工作在关联规则挖掘的范畴以内,对从聚集类型数据中的频繁模式挖掘问题进行了研究.该文的主要贡献在于:●提出了针对有序标号树的Chopper算法和XSpanner算法.这两个算法不仅在性能上要优于同类算法,更重要的是它提出了树的序列化表示和先同分后异构的思想.通过先区分出形式上一致的模式,再进行结构上的鉴别的思想就可以缩小需要进行同构判定的对象范围,使同构判断的难题被限制在一定区域内,从而改善算法的整体性能.●提出了针对唯一标号图的AMGM算法和SFP算法.我们可以将唯一标号图能转换为项集的形式,但是需要在连通性的进一步考虑上.AMGM算法是基于Apriori思想的,而SFP算法则充分利用了FP-Growth的特点.这两个算法可以高效地挖掘唯一标号图库中频繁出现的连通子图.●频繁模式操作对象类型从原来的原子类型数据拓广为聚集类型数据.对频繁模式操作对象的推广将有助于关联规则分析应用的拓展.从最初的购物篮分析到现在的互联网、XML等半结构化数据、化学分子结构分析,关联分析的应用范围日益广泛,这不仅为频繁模式分析提供一个个崭新的舞台,也对其本身提出了更高的要求.