关键词:
Eclat算法
电力大数据
并行规则
增量挖掘
数据项合并
摘要:
电力大数据具有时变性的特点,如果挖掘方法无法实时处理新增数据,及时发现数据之间更新的关联规则,可能导致挖掘结果的滞后和不准确,降低挖掘的准确度。对此,文章提出Eclat算法下电力大数据并行关联规则增量挖掘方法。采用相似项合并策略消除由数据冗余和噪声引起的误导性信息,提高电力大数据的质量;通过最小哈希原理优化Eclat算法,建立Min Hash矩阵估计原始数据集候选项目集,对其实施剪枝,减少数据比较和存储的复杂性,提高挖掘的效率。利用增量更新原则获取更新后候选项目集,并结合Hash Eclat算法快速更新已有的关联规则,实现大数据并行关联规则的增量挖掘,提升关联规则挖掘的准确度。实验结果表明,利用该方法开展关联规则挖掘时,I/O占用量始终在200 kB以下,CPU占用量低于20%,漏检数量和误报数量最低为0,网络通信量最低可达到268 MB,ROC曲线下方面积较大,与当前挖掘方法相比,具有较高的挖掘准确度和较好的挖掘性能。