关键词:
聚类算法
日志
数据挖掘
网格聚类
事件关联
摘要:
随着科学技术飞速进步,我国计算机网络事业得到极大发展和普及。网络对我们工作、生活和学习的影响无处不在,给我们带来了无比的方便与快捷。然而,计算机网络在给我们带来便利的同时,也引起了各种计算机网络安全问题。在应对这些安全问题时,基于日志数据处理的各种方法与技术成为大家研究的共识。其中,以日志数据为研究对象的数据挖掘方法——聚类算法在日志规模压缩方面是一个很有发挥空间的应用方法。
由于传统聚类算法不能直接应用于日志数据领域,本文首先对聚类算法进行了深入的研究。探讨了聚类算法的定义、产生历程以及聚类算法的数据类型,对传统聚类算法的几个分支:划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类分别做了概括性描述。总结和分析了聚类算法当前存在的问题和有待改进的方面。针对以上问题,并结合网络日志与系统日志的特点,本文所做的主要工作包括:
1.设计并提出了一种基于网格的网络日志二次聚类算法
对多协议网络日志数据划分网格,网格内外分别作两次聚类,生成聚类后的簇记录。该算法不需预设类簇个数k,可自主决定类簇个数。该算法处理实际的动态数据,实现增量式聚类,可以删除已聚类数据,处理新来网络日志。实验证明,该算法对日志规模压缩效果显著,而且不破坏网络日志的完整性和可靠性,并且不影响用户的正常网络访问。
2.设计并提出了一种基于事件映射的系统日志聚类算法
对操作系统日志、安全日志和应用程序日志,设计统一的聚类算法对其做共同处理,产生统一的用户操作行为概化描述。通过考察日志记录与事件之间的映射关系,设计并提出基于事件映射关系的系统日志聚类算法。参考事件关联的思想,通过实验总结,建立起日志记录与事件之间的映射关系。该算法充分利用操作系统日志、安全日志和应用程序日志的先验知识,简化了聚类算法的复杂度,易于实现,速度快,时间复杂度低,聚类生成的事件信息描述准确、完整,易于理解和识别,成为后期安全研究的高质量数据源。