关键词:
跨系统流动性
多源异构数据整合
数据清洗
特征抽取
循环神经网络
摘要:
多源异构数据的存在,使数据在不同系统之间的流动和共享变得复杂而困难,导致数据资源无法被充分利用,形成了数据孤岛。为了提高数据质量和利用效率,提出跨系统流动性的多源异构数据整合算法研究。利用时序关联和密度聚类算法对收集到的跨系统流动性多源异构数据实施数据清洗,提高数据质量;采用堆叠自编码器深度神经网络(Stacked Auto-Encoder, SAE)从跨系统数据源中抽取出描述数据跨系统流动性的关键特征点;建立基于循环神经网络的数据整合模型,将这些关键特征点作为输入,并通过该模型不断优化,实现跨系统的多源异构数据高效整合。实验结果表明,所提方法得到的数据具有较高的质量,且相似度控制在0.895~0.960之间,整合效果最为可靠。