关键词:
异常检测
流聚类
核函数
核密度估计
自编码器
习惯化
摘要:
随着通信技术的高速发展,工业物联网被广泛应用于能源、制造、医疗等领域,会产生大规模、高流速、高维度的数据流。工业物联网安全事件频发,问题日益突出,数据流异常检测有助于工业物联网安全技术的发展,是目前热点研究问题。但处理高维数据流的异常检测问题,面临着诸多困难,因此,研究快速可行的高维数据流异常检测方法具有十分重要的意义。流聚类是解决高维数据流异常检测最有效的方法之一,因其动态的增量特性和聚类结果的精确性,已成为高维数据流异常检测的研究热点。当前已有许多流聚类进行数据流异常检测的相关研究,但仍然存在以下三个方面的问题:第一,许多流聚类中的梗概(Sketch)数据结构无法避免高维数据流中异常点的干扰;第二,许多算法无法快速处理非线性高维数据流;第三,针对数据流中的隐性异常缺乏稳定高效的解决方案。因此,如何高效快速的进行高维数据流异常检测已经成为了一个巨大的挑战性问题。针对以上问题,本文分析了各类数据流异常检测算法的优缺点,在欧拉核函数的基础上,提出了一种基于共享近邻密度的投影微聚类结构;在高斯核密度估计器的基础上,结合堆叠习惯化自编码器进行快速异常检测;基于分布式计算环境,设计并实现了一个隐性异常检测分析系统,最后通过充分的对比实验,证明了本文方法的优越性,本文的主要贡献如下:(1)针对高维数据流异常点干扰问题,结合欧拉核函数和共享近邻距离生成共享近邻密度,构建投影微聚类结构,该结构可以有效的区分不同类别的微聚类,降低异常点的敏感性,提高流聚类的纯度。(2)针对非线性高维数据流异常检测的效率问题,使用堆叠习惯化自编码器对数据进行降维,有效提取了数据之间的非线性关系,利用数据流的分布特性,结合微聚类和核密度估计器,构建异常检测因子对数据流进行快速异常检测。(3)针对隐性异常稀疏、不稳定等特点,以日志流为出发点,在分布式高可用的思想下,使用不同的日志规则对日志流进行矢量化预处理,并使用自适应异常检测算法进行隐性异常检测,获得了较高的检测精度和系统稳定性。