数据挖掘研究及发展现状0001

阅读: 评论:0

数据挖掘技术研究现状及发展方向
摘 要: 数据挖掘技术是当前数据库和人工智能领域研究的热点。从数据挖掘的定义出发,介绍了数据 挖掘的神经网络法、 决策树法、遗传算法、 粗糙集法、模糊集法和关联规则法等概念及其各自的优缺点; 详细总结了国内外数据挖掘的研究现状及研究热点,指出了数据挖掘的发展方向。
关键词: 数据挖掘;神经网络;决策树;粗糙集;模糊集;研究现状;发展方向
The present situation and future direction of
the data mining technology research
Abstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advantages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international research situation and focus of data mining in details, and pointed out the development trend of data mining.
Key words:data mining, neural network, decision tree, rough set, fuzzy set, research situation, development direction

耵聍钩
1数据挖掘算法
0 引言
随着信息技术的迅猛发展, 许多行业如商业、 企业、科研机构和政府部门等都积累了海量的、 不同形式存储的数据资料 [1] 。这些海量数据中往往 隐含着各种各样有用的信息,仅仅依靠数据库的 查询检索机制和统计学方法很难获得这些信息, 数据和信息之间的鸿沟要求系统地开发数据挖掘 工具,将数据坟墓转换成知识金砖,从而达到为 决策服务的目的。在这种情况下,一个新的技术 ――数据挖掘(Data Mining , DM)根雕制作技术技术应运而生[2]数据挖掘正是为了迎合这种需要而产生并迅速发 展起来的、用于开发信息资源的、一种新的数据 处理技术。
数据挖掘通常又称数据库中的知识发现 (Knowledge Discovery in Database)是一个 多学科
领域,它融合了数据库技术、人工智能、 机器学习、统计学、知识工程、信息检索等最新 技术的研究成果,其应用非常广泛。只要是有分 析价值的数据库,都可以利用数据挖掘工具来挖 掘有用的信息。数据挖掘典型的应用领域包括市 场、工业生产、金融、医学、科学研究、工程诊 断等。本文主要介绍数据挖掘的主要算法及其各 自的优缺点,并对国内外的研究现状及研究热点 进行了详细的总结,最后指出其发展趋势及问题 所在。
数据挖掘就是从大量的、有噪声的、不完全 的、模糊的、随机的实际应用数据中提取有效的、 新颖的、 潜在有用的知识的非平凡过程 [3]。所得到 的信息应具有先前未知、有效和实用三个特征。 数据挖掘过程如图 1 所示。这些数据的类型可以 是结构化的、半结构化的、甚至是异构型的。发 现知识的方法可以是数学的、非数学的、也可以 是归纳的。最终被发现了的知识可以用于信息管 理、查询优化、决策支持及数据自身的维护等 [4] 数据选择: 确定发现任务的操作对象 , 即目标 对象;
预处理:包括消除噪声、 推导计算缺值数据、 消除重复记录、完成数据类型转换等;
hca2转换:消减数据维数或降维; 数据开采:确定开采的任务,如数据总结、 分类、聚类、关联规则发现或序列模式发现等, 并确定使用什么样的开采算法;
解释和评价:数据挖掘阶段发现的模式,经 过用户和机器的评价,可能存在冗余或无关的模 式,这时需要剔除,使用户更容易理解和应用。 十大经典算法如图 2
目前, 数据挖掘的算法主要包括神经网络法、 决策树法、遗传算法、粗糙集法、模糊集法、关 联规则法等。
1数据挖掘过程
射频开关芯片2十大经典算法
1.1神经网络法
神经网络法是模拟生物神经系统的结构和功 能,是一种通过训练来学习的非线性预测模型, 可完成分类、聚类、特征挖掘等多种数据挖掘任 务。神经网络的学习方法主要表现在权值的修改 次是需较长的学习时间。神经网络法主要应用于 数据挖据的聚类技术中。
1.2决策树法
决策树是通过一系列规则对数据进行分类的 过程,其表现形式是类似于树形结构的流程图。
分类速度快;缺点是很难基于多个变量组合发 现规则。决策树法擅长处理非数值型数据,而 且特别适合大规模的数据处理。
上。其优点是具有抗干扰、非线性学习、联想记 忆功能,对复杂情况能得到精确的预测结果;缺 点是不适合处理高维变量,不能观察中间的学习 过程,具有/黑箱0性,输出结果也难以解释;其
最典型的算法是J.R.QUINLAN1986年提出的ID3 算法[5]下靶,之后在ID3算法的基础上又提出了极其流 行的C4.5算法
[6]。采用决策树法的优点是决策制 定的过程是可见的,不需要长时间构造过程、描
不需要长时间构造过程、描述简单,易于理解,
1.3遗传算法
遗传算法是一种采用遗传结合、遗传交叉 变异及自然选择等操作来生成实现规则的、基 于进化理论的机器学习方法。它的基本观点是 /适者生存 0 原理,具有隐含并行性、 易于和其 它模型结合等性质。主要的优点是可以处理许 多数据类型,同时可以并行处理各种数据,对 问题的种类有很强的鲁棒性;缺点是需要的参 数太多,编码困难,一般计算量比较大。遗传 算法常用于优化神经元网络,解决其它技术难 以解决的问题。
>opnet

本文发布于:2023-06-10 11:45:57,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/134551.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   数据挖掘   学习   技术   研究   信息   发现
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图