关键词:
数据挖掘
RNN-LSTM
序列生成
双向决策支持系统
摘要:
专业领域业务数据如交通流量、网络流量等一定程度上受外界事件信息影响,尤其是发生在特定场合如活动场馆、体育场、办公楼区等等。往往这些外界影响的事件信息可以在互联网上采集到,本文称这类可以预先得到的、对被预测的专业领域数据有较强影响的事件为公共先验事件,表达先验事件的信息称为先验信息。现阶段数据预测任务面临如下问题:(1)对多源异构数据的支持较少,建模多基于内部特征,较为单一,很少结合外部事件(2)对时序数据序列适配很少,缺失对于长时间数据的记忆能力(3)预测任务的结果往往只是下一个时刻信息,不是一时间段的数据,对需要序列预测的场景支持度不高。对于长期的预测任务,需要适应时间序列的变化,不能将各个时间点作为离散的、互不影响的点来预测,近年来许多学者也在与时间序列相关的专业领域数据任务中进行了研究工作,研究方法主要分为基于ARIMA模型或相关回归模型的方法与基于神经网络或深度神经网络模型的方法。也有部分研究工作结合了先验信息,但是绝大多数使用了预先业内专家设定的影响因子,少有结合公共事件信息源作为专业领域事件业务预测的研究。其他模型对时间序列的适配度不高或泛化程度不高。为解决以上问题,本文首先提取公共事件中对于专业领域事件有影响的部分,将其影响程度通过评级,确定其权重系数。并在文中改进了 RNN-LSTM(recurrent neural network-long short time memory)的序列生成算法。提出了 LSTM动态预测先验序列生成模型,解决时序预测模型的问题,并结合公共事件数据源作为模型的先验事件的信息,采用序列生成的方法建立模型。将公共先验信息化成权重向量,以动态拼接的方式与前次的计算结果形成新的输入元组,改变了传统序列生成模型的连续预测过程,在预测的时间步中动态添加了新信息。本文在通信领域专业数据预测任务上结合公共领域数据先验信息,使用了 LSTM动态预测先验序列生成模型设计了 4G网络流量预测实验,并对预测结果进行了分析,实验研究表明(1)LSTM算法除了传统的自然语言处理、词曲生成等场景,也可以以序列生成的方式支持数据预测的场景,具有一定的通用性(2)模型在结合了公共事件源的先验信息后,可以预测数据事件的趋势,趋势拐点明显,在序列生成前期准确,末期误差可控制在10%左右,整体数据预测准确。(3)改进的LSTM算法可以支持在动态拼接新数据的情况下进行预测。本文设计实现了双向决策支持系统,将整体项目中涉及到的各个方面的知识、模型、方法、数据信息都封装在了一个双向的决策支持系统中,整合整体系统,做出了由公共事件数据到专业领域数据,和专业领域数据到公共事件数据的双向决策支持系统,系统可以以公共领域事件数据为先验信息,对专业领域决策提供决策支持。同时,可以以专业领域数据变动规律,对公共领域事件发生种类提供决策支持。