您的常用邮箱:*
您的手机号码:*
问题描述:
关键词: 数据挖掘 卫星信息 空缺数据 最近邻居(KNN) 单特征值分解(SVD)
摘要: 数据挖掘可以从大量的数据中发现有用的知识,有着越来越广泛的应用。将数据挖掘用于处理卫星数据中的空缺数据,给出了数据挖掘中对空缺数据处理的方法;结合卫星数据的特点,使用平均值法、最近邻居法和单特征值分解法等通用方法对卫星信息的空缺数据进行处理。实验结果表明,平均值法效果不明显,最近邻居方法能有效、快速地预测空缺数据。
关键词: 数据仓库 海量数据 相对稳定 历史变化 数据挖掘 数据处理 决策支持 结构设计
摘要: 数据仓库是一种结构化整合、存储、管理海量数据并提供高效查询及分析功能的技术,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据仓库是用于数据分析、数据挖掘、决策支持等面向分析型的数据处理,它除了增量添加数据外几乎是只读的,不同于我们所熟悉的数据库需要处理大量删改操作,所以数据仓库结构设计也是围绕提高查询和分析效率来进行的;
关键词: 视频检索 数据挖掘 视频关键帧 运动信息 数据处理
摘要: 随着多媒体技术的快速发展,视频数据大量地增加,基于内容的视频检索的应用越来越广泛,而关键帧提取技术是视频分析和基于内容的视频检索的基础。一个镜头的关键帧就是反映该镜头中主要内容的一帧或若干帧图像,由于视频数据量巨大,在存储容量有限的情况下,存储关键帧可以收到数据压缩的效果,所以在视频检索领域,关键帧提取的问题是非常重要的一环,本文主要针对视频关键帧的提取方法进行了研究与探讨。\n 本文首先介绍了相关的课题背景,包括数据挖掘理论和视频编码标准,在此基础上对当前的关键帧提取方法及其相关技术进行了较为详细的讲述和总结,发现目前大部分关键帧提取技术都基于原始视频流,即经过解压缩后再进行视频数据的各种分析处理,效率并不高。然后本文提出了一种基于数据挖掘的关键帧提取方法,把视频中的运动信息和 Rough Set理论结合起来。首先利用 Rough Set 理论的数据处理方法来分析从 MPEG压缩视频流中提取的运动信息数据,导出关键帧提取的决策规则。在得到了关键帧提取的决策规则后完成对视频片断的关键帧的提取。最后从测试结果和对比实验中得出该算法可行,并且计算量小,提取的关键帧可以较好地代表视频内容。尤其在运动强度大的视频片段中运用该算法的效果更好。
关键词: 智能在线动态检测 集散控制系统 数据挖掘
摘要: 该系统实现了洗衣机类电机的智能在线动态检测与数据处理功能,通过集散控制系统设计方案,较好地实现了80V低压自动启动,匝间286V绝缘,空载220V运行,堵转、耐压、噪声等性能参数的在线动态检测,并较好地实现了对各项性能指标的显示和统计,从而大大地方便了用户,此外,该系统通过基于聚类的K簇算法对积累的电机检测数据进行数据挖掘,根据检测参数的规律分析出易出问题的工位,为有效管理提出了依据,切实提高了生产效率和产品质量。
关键词: 数字资源组织 数据挖掘 数据处理
摘要: 本文在比较数字资源组织及数据挖掘基本涵义的基础上,简要概括了二者在基础条件、终极目标等方面的相同点,并深入分析二者在理论基础、目的、侧重点、数据处理过程等方面的不同。
关键词: 数据流 数据挖掘 数据处理 数据库
摘要: 随着全球信息化的发展,信息量按指数增长,出现了大量以数据流为承载形式的信息,比如通信领域中的电话记录数据流、Web上的用户点击数据流、网络监测中的数据包流、各类传感器网络中的检测数据流、金融领域的证券数据流以及零售业务中的交易数据流等。这些数据具有实时性、连续性、顺序性以及数据量庞大等特点,而且通常要求在线处理。1998年,数据流作为一种数据处理模型出现,从2000年开始,作为一个热点研究方向出现在数据挖掘与数据库领域的几大顶级会议中,如VLDB、SIGMOD、SIGKDD、ICML、ICDM等会议每年都有多篇有关数据流处理的文章。目前,数据流研究大致可分为两个方向:数据流管理系统(Data Stream Management ***)和数据流挖掘。数据流挖掘和传统的数据挖掘一样,从大量的数据中挖掘知识,不过挖掘的对象是数据流。数据流模型给数据挖掘带来了新的挑战,比如:必须是一遍扫描(one-pass);空间消耗最多是O(poly(fogy))(N为流的长度);不能使用必须访问整个数据流才能得到结果的操作;不能缓存所有数据,数据处理完毕后需要丢弃;处理速度必须跟上数据到达的速度,因为数据的到达不受控制等等。传统的数据挖掘方法很难被直接应用到数据流模型中,迫使研究人员深入研究数据流模型,设计新的挖掘方法。除了传统的聚类,分类和关联分析等数据挖掘问题,数据流挖掘中还有一些传统数据挖掘中没有的研究内容:设计高效的增量型概要结构(synopsis);新的数据流挖掘框架;数据流演化问题;多时间粒度查询等等。\n 本文对数据流挖掘中的文本聚类、频繁模式和数据流间模式依赖挖掘进行了探讨,提出了三种新的算法并将其应用到实际系统。本论文的创新点主要体现在:\n (1)提出了演化文本流聚类算法(CDDS)。该算法不但能进行文本流的聚类,而且还能够处理演化问题和大量孤立点的问题。算法使用在线和离线结构,采用了适合文本相似度计算的在线概要结构,并且使用了时间金字塔模型,能够进行多时间粒度的聚类查询。将在线微聚类分为潜在和异常微聚类,用来解决文本流中孤立点过多时聚类质量下降的问题。实验表明,该算法可以有效地对演化文本流进行聚类,并且在孤立点不敏感。\n (2)提出了数据流频繁模式挖掘算法(FSM)。该算法基于传统的频繁模式挖掘算法:FP-growth,利用Lossy Counting算法省去了FP-growth算法所需要的第一遍数据扫描,使该算法只需要---遍扫描就能进行FP-tree的生成。Lossy Cotmting算法的引入,带来了误差ε。可以证明,该算法是一个不存在漏报(no false negative)的算法。实验表明,该算法比传统的FP-stream算法具有处理速度和空间消耗方面的优势。\n (3)提出了数据流间模式依赖问题,并设计了数据流间模式依赖挖掘算法(FSDM)。通过对股票分析问题的研究,我们发现了一个数据流问的模式依赖问题。可以简单描述为:在股票数据流中,若股票A的价格出现上升,下降,急速上升后,过两天,有80%的可能股票B价格会下降,再下降。本文提出了FSDM算法,该算法使用条件规则元组描述模式间的依赖,能方便计算数据流间模式依赖的置信度和支持度,并且能够增量更新。针对数据流增多,空间消耗会按平方增长的问题,只选则数据流中选出具有高相关性的数据流进行分析。实验表明该算法可以发现股票间的模式依赖。\n (4)设计并实现了两个采用数据流挖掘技术的应用系统。其中一个系统是垃圾短信过滤系统,CDDS算法用于该系统识别垃圾发送者的识别模块,另外一个是移动股票分析系统,FSDM算法可用于股票间模式依赖的挖掘。
关键词: 雷达 工艺规划 数据挖掘 关联规则 数据处理
摘要: 工艺规划是机械产品制造中的重要环节,直接关系到产品开发的质量和效率。工艺知识是制造企业的宝贵资源。雷达产品零部件种类众多、结构复杂、制造工艺各异,如何对产品的工艺规划数据进行归纳和整理,实现工艺知识的重用,是企业亟待解决的技术难题。\n 论文以雷达零部件制造工艺数据为基础,结合雷达产品的领域知识,利用数据挖掘技术从数据中寻找规则,为智能化和标准化的雷达产品工艺规划提供了有效思路。论文主要工作如下:\n 1.利用领域知识进行工艺数据预处理。将领域知识引入数据预处理过程中,把雷达产品的领域知识分为范围知识、层次知识、规则知识、类型知识等类型,对各类知识进行标准化处理,转化为计算机支持格式,支持数据清理、数据规约、数据变换等数据预处理过程。\n 2.对预处理完成后的数据进行数据挖掘,结合雷达产品特征建立工艺规则库。主要内容包括:①基于匹配矩阵的标准雷达工艺术语的提取,采用基于距离的工艺语句相似性度量,寻找相似语句,建立匹配矩阵,提取标准工艺术语。②基于关联规则的工艺规则提取,采用构建FP-tree的方法改进Apriori算法,提高运算速度,提取工艺之间关联规则。③基于序列模式的工步顺序规则提取,寻找工步前后顺序规则。\n 3.对雷达产品生产过程中产生的数据进行挖掘,寻找过程优化方案,建立工艺过程优化知识库。根据对异常数据的处理,寻找对生产质量影响最大的因素。考虑生产成本、生产效率等各方面因素,采用灰色层次综合评价法从多种工艺方案中选择最佳方案。\n 4.制定零件编码规则,实现成组工艺库,并完成相应管理软件。根据雷达零件的功能结构、加工工艺、热处理、加工精度等特征,制定零件编码规则。根据编码将零件进行成组分类,建立成组工艺库,实现新零件工艺的定制查询和模板重用。利用VC++和Oracle数据库,开发相关软件。\n 运用数据挖掘技术处理工艺数据是本论文的研究重点,目的是充分利用现有的雷达工艺知识和数据,建立工艺规则库、成组工艺库,为新零件的工艺设计和成生提供方便。在对工艺文件中的工艺数据进行处理的同时,还对生产过程中的数据进行规则提取,最后整理工艺模板,实现各层次角度的工艺重用,简化工艺设计过程。
关键词: 数据挖掘 状态估计 聚类分析 数据处理 线性回归
摘要: 错误的网络参数对状态估计的结果会产生较大的影响,一般都认为参数值是常量,但实际上网络参数随周围环境、天气状况及负荷水平等变化而变化。基于数据挖掘技术的电力网络参数估计方法是利用大量的样本数据估计网络的真实参数值的一种方法。首先,利用聚类分析技术对历史数据进行分类,分成不同类型的样本数据;其次,利用数据处理技术对各个样本数据中的孤立点、空缺值等进行处理;最后,利用线性回归技术估计满足一定条件的网络参数。经过计算验证,证明基于数据挖掘技术的状态估计方法具有很高可靠性。
关键词: 数据挖掘 聚类算法 数据处理
摘要: 阐述了聚类算法基本原理,介绍了各种聚类算法,并比较分析了几种典型聚类算法的优点与不足,以便于对聚类算法作进一步的研究。
关键词: 税收 决策支持系统 收入 数据挖掘 财政收入 决策系统 财政管理 数据仓库 税务 数据分析 数据处理 国税 创新
摘要: GDP总量稳居国内各省第一的广东省,在税收上也多年排在全国第一位。在这其中,广东国税在数据仓库建设及数据挖掘方面的创新功不可没,本报摘登了其建设中的一些经验,供税务信息化同行及其它行业的类似应用做为参考。