您的常用邮箱:*
您的手机号码:*
问题描述:
关键词: 商用数据库 Sybase 嵌入式数据库 超大容量 数据仓库 数据处理 数据挖掘
摘要: 对于未来数据库的发展方向,Sybase认为有两个趋势,一是超大容量,支持海量数据处理,支持数据仓库、数据挖掘、分析等;二是更小,如嵌入式数据库,作为一个完整的商用数据库更灵活、方便地使用。
关键词: 数据挖掘 神经网络 数据处理
摘要: 讨论了神经网络技术的结构、特点、各种模型以及数据挖掘系统的体系结构:研究了基于神经网络进行数据挖掘的关键技术和实现的途径。
关键词: 缺失数据 多重填补 粗糙集 神经网络 数据处理 数据挖掘
摘要: 在数据处理过程中,时常会遇到不完整的数据集,为了更好地进行数据挖掘,我们有必要对数据进行预处理。本文从概率统计、粗糙集、神经网络的角度研究和探讨了缺失数据的多种填补算法,有效地解决了多种情形下的不完整数据集的完整化问题。\n 基于概率统计,首先介绍了应用较为广泛的一种处理缺失数据强有力的工具——多重填补,着重阐明了其中的MCMC方法的填补及统计分析过程,并用实例验证了该方法填补的准确度。多重填补法在综合统计推断中体现了由于缺失数据而产生的不确定性,克服了简单填补的主要缺陷。另外,作为一种新的方法,本文尝试将多元统计中主成分分析的理论与EM算法相结合,以期产生较好的填补效果,实验也证明了这一点。\n 基于粗糙集理论的ROUSTIDA算法,是在可分辨矩阵的基础上用相似对象的相应属性值来对缺失属性值进行填补,但可能在处理后,仍然面临信息表没有完整化的问题。为此,文章在ROUSTIDA算法的基础上,对相似程度进行量化,扩充了相似对象集的概念,从而对算法进行了改进。改进算法对存在缺失数据对象是利用与该对象相似程度最大,即具有最强的缺失属性值填补能力的一个对象对其进行填补的,填补效率高、速度快。\n 由于人工神经网络具有很强的非线性并行处理能力以及一定的容错性能,使得神经网络运用于缺失数据填补成为可能。文章给出了几种特殊情形下的基于神经网络的缺失数据填补模型,并将粗糙集理论与BP网络结合起来,提出了一种新型的粗糙集神经网络模型,较好地解决了具有离散属性的不完备信息系统的完备化问题。至于其它情形下的缺失数据填补,要根据具体情况,选择合适的神经网络填补模型。\n 实际上,不存在可以适用于任何问题的缺失值的填补方法。而且任何一种填补算法也都不可能将缺失以前的原值完全准确地恢复过来。它们都只是对不完备信息的一种清洗补救手段,但这种补救是必要的。我们研究它,以便根据具体的不同情况选用不同的填补方法。选用时,应尽可能地做到合理、高效。
关键词: 智能交通系统 数据处理 数据融合 数据挖掘
摘要: 交通流数据处理为路网服务水平的评价、最佳路径计算等提供可靠的数据。本文分析了交通流数据处理的需求,设计了集成数据采集、不精确数据校正、错误数据限定、丢失数据恢复、多传感器数据融合和数据分类功能的交通流数据处理系统,并介绍了系统开发结果。交通流数据处理系统为城市交通管理平台的建立奠定了基础。
关键词: 数据挖掘 关联规则 生物信息学 数据处理
摘要: 随着生物信息学的发展,数据挖掘技术为其提供了越来越重要的技术支持,而关联规则挖掘技术是数据挖掘领域中的重要组成部分。但在应用过程中由于生物数据的特点,传统算法需要进一步改进或重新提出新的算法以满足生物信息学的研究要求。\n 本文首先提出了一种在分布式环境下挖掘项约束多层关联规则的有效算法:基于Apriori算法的MLACD算法。该算法适用于对通信性能要求不高的分布式数据库,能够实现对基因表达谱数据在不同层 次上进行关联规则挖掘。 \n 针对基因表达谱数据每个样本项非常多的特点,本文提出了一个新颖的挖掘频繁闭合模式的算法REMFOR,该算法在闭合模式概念和行枚举思想的基础上,采用垂直数据结构和fp-tree技术,对行集建立行fp-tree来挖掘频繁闭合模式。通过实例和实验证明该算法在处理基因表达谱数据集或行数远小于样本项个数的数据集时具有很高的效率。\n 本文采用兴趣规则组概念得到关联规则并以关联规则建立分类器,并对基因表达谱数据样本进行了预测实验。首先对基因表达数据集提取特征基因并采用了兴趣规则组的上边界模式做为建立分类器的分类关联规则,在REMFOR算法的基础上提出了算法FEALL,实现了分类预测功能。实验证明,该算法在规则挖掘效率和预测准确率方面获得很好的效果。
关键词: 知识发现 数据处理 数据挖掘 支持向量机 数据降噪
摘要: 随着信息社会的到来,促使知识发现问世,可以有效解决从海量数据中挖掘知识。数据预处理是知识发现过程的重要组成部分,直接影响到数据挖掘效率和知识模型的质量。研究数据预处理,尤其是数据清洗和数据补齐,具有理论意义和实用价值。\n 在数据清洗和数据补齐技术进行综述的基础上,针对比较简单的数据降噪,应用分箱技术和回归分析来实现降噪;含噪数据在频域和时域变化的比较复杂时,应用小波变换中的Mallat算法进行降噪。经过真实工程数据实验表明,Haar小波基可以应用于石油领域内的数据降噪。针对缺失数据,根据SVM在函数拟合方面的特点,建立了一个函数模型。通过确定主要影响因子和选定数据集后,对该模型进行训练,最后成功地应用于缺失数据补齐。经过真实工程数据实验证实,基于SVM的缺失数据补齐方法具有明显的实用性。在基于支持向量机的对象分类识别的算法上,对SVM其中比较重要的参数进行了优选,提高了对象分类的正确率;在此基础之上,结合实际需要加入一个判断函数,进一步提高了SVM分类器的分类正确率。试验表明:SVM分类器应用于地层识别效果良好。\n 本文所用的各种数据预处理方法和基于SVM的对象分类识别算法具有广阔的应用前景,不但可以应用于石油领域内数据的知识发现,也可以应用于其它需要知识发现的工程领域。
关键词: 数据挖掘 电气设备在线监测 数据处理
摘要: 介绍了电气设备在线监测系统和数据仓库与数据挖掘技术,分析了数据挖掘技术在三里变电站电气设备在线监测系统中的应用,探讨了数据挖掘步骤中两个最重要的模块——数据处理模块和预测模块,对扭转当前在线监测系统中“信息丰富、知识匮乏”的局面做了一个非常有益的尝试,并取得了较好的效果。
关键词: Web日志 序列模式 聚类分析 用户访问模式 数据挖掘 数据处理
摘要: 在Web数据挖掘研究领域中,Web日志挖掘是最重要的应用研究方向之一。Web日志挖掘的目的是找出网站用户的访问模式,其过程主要包含三个步骤:数据预处理、模式识别和模式分析。在研究Web日志及相关的数据挖掘技术的基础上,提出一种基于链接的数据清理方法,利用网页链接信息清理原始访问日志,使清理后的记录更加准确完整地反映用户访问路径。然后经过用户识别、会话识别、路径补偿等步骤将日志记录整理成适于挖掘的用户访问序列;根据序列模式挖掘理论,提出基于动态矩阵预测的网页实时推荐算法,首先通过会话编码反映用户访问路径的先后顺序,并利用动态矩阵和滑动窗筛选简化相似度计算,同时,整个过程中动态矩阵对日志的扫描减少为一遍,从而在保证满意度的基础上实现了网页在线实时推荐;通过对聚类算法的分析,提出基于兴趣相似性的Web用户聚类算法,利用日志记录和网页内容综合描述用户浏览兴趣,以提高聚类的准确性,应用传递闭包法对用户进行聚类分析,不同截集的划分体现了用户类属的模糊性,最终实现了依据浏览兴趣对用户的模糊聚类。这些研究可以为改善网络访问速度,提高网站访问量,合理调整站点结构,发掘潜在客户以及网络欺诈检测等应用提供新的思路和借鉴。
关键词: 信息中心 数据处理 数据存储 数据挖掘
摘要: 战略信息的获取、处理和存储在现代战争中越发重要,文章借鉴国外的发展状况,针对构建我军自己的信息中心提出了思想和基本架构。其中涉及了诸如存储局域网、数据挖掘和数据融合等多项最前沿技术的发展,为我军的信息化建设提出了新的思路。
关键词: 空间数据处理 空间数据挖掘 空间数据不确定性
摘要: 根据现行文献中反复提到的空间数据处理内涵的理解,将空间数据处理分为空间数据处理技术和空间数据处理理论,简要论述了各自的主要内容,讨论了空间数据挖掘的现状和今后研究的重点,比较了空间数据处理与空间数据挖掘的异同。