关键词:
地震前兆数据
大数据挖掘
WEKA
聚类异常分析
摘要:
随着全球信息技术和互联网技术的快速发展,各行业的数据信息迅猛增长,对于地震的相关科研趋势亦是如此,继而使大数据和大数据挖掘技术在地震监测数据的研究领域引起人们的普遍重视。大数据本身蕴含的庞大潜在价值促进了大数据挖掘技术的产生,从具有容量大、多样性、高速更新和潜在价值无穷尽的地震数据中挖掘出具有意义的知识将成为研究的重点。在国家“十五”数字化、网络化改造前兆台网监测系统后,地震前兆数据的产出大大激增,半人工的传统数据处理方法已经不能满足实际的工作需要。本文主要以太原市2011-2016年地震前兆形变数据为数据挖掘对象,以大数据挖掘的基本思想方法,主要开展以下两项研究内容:首先,对于前兆数据预处理,利用基于JAVA开发的开源的数据挖掘软件Weka工具,主要重新安装设置了Forecast环境,其原理主要为时间序列的前兆数据按其趋势建立模型来补充小数量的缺失数据,计算出的数据本为预测数据,此方法将预测结果作为插值数据,对于地震前兆数据的预处理工作具有促进作用。其次,本文有效采用了Weka便利的开放特征,针对地震前兆数据测项特点,将适用大数据特征的DFCM(基于密度函数加权的模糊聚类算法)通过工具MyEclipse植入到同是JAVA开发的Weka运行环境中,在Weka工作界面内充分发挥该算法的作用,将各个测项数据进行客观模糊聚类分析,最终得出以下结论:首先,针对前兆各个测项数据变化复杂多样、易缺失的情况,数据预处理部分重点研究了时间序列插值处理方法,设置利用的Weka-Forecast插值法对缺失数据进行处理,并和行业其他研究成果的插值结果进行比较,比较的标准是通过平均标准误差的大小,结果说明Weka-Forecast插值法较其他常见插值方法适用性更好,重点是插值原理适用时间序列的前兆数据且操作简单。其次,地震前兆数据在Weka中的聚类分析得以实现,植入的模糊聚类算法通过改变参数寻找相对良好的并符合实际意义的聚类结果。实验数据中,大部分测项数据可以被检测出异常数据,与半人工的检测标准对比,其准确率良好。本文创新点在于地震前兆数据的大数据挖掘研究是时代发展必然需求,从聚类分析方法入手,挖掘出尚未被认知的规律或者对已有规律的新认知,利用这种新思路、新模式,结合有效的数据挖掘工具,并能初步尝试实现这种思路的具体分析过程,最终根据前兆数据的具体意义,确认发展规律,对于以前兆数据为基础研究的科研问题具有一定意义。