四川理工学院-数据挖掘-简答题

阅读: 评论:0

四川理⼯学院-数据挖掘-简答题
----------------------挖掘机简答题----------------- 1.什么是数据仓库?数据仓库的特点主要有哪些?为什么要建⽴数据仓库?数据仓库的组成?
数据仓库是⼀种新的数据处理体系结构,是⾯向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策⽀持系统提供所需的集成信息。
数据仓库的特点包含以下⼏个⽅⾯:
(1)⾯向主题。⽽数据仓库中的数据是按照⼀定的主题域进⾏组织。主题是指⽤户使⽤数据仓库进⾏决策时所关⼼的重点领域,⼀个主题通常与多个操作型业务系统或外部档案数据相关。
(2)集成的。存放在数据仓库中的数据应使⽤⼀致的命名规则、格式、编码结构和相关特性来定义。
(3)相对稳定的。针对数据仓库,通常有⼤量的查询操作及少量定期的加载(或刷新)操作。
(4)反映历史变化。数据仓库系统通常记录了⼀个单位从过去某⼀时点(如开始启⽤数据仓库系统的时点)到⽬前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。
为什么要建⽴数据仓库?
建⽴数据仓库的⽬的有3个:
⼀是为了解决企业决策分析中的系统响应问题,数据仓库能提供⽐传统事务数据库更快的⼤规模决策分析的响应速度。
⼆是解决决策分析对数据的特殊需求问题。决策分析需要全⾯的、正确的集成数据,这是传统事务数据库不能直接提供的。
三是解决决策分析对数据的特殊操作要求。决策分析是⾯向专业⽤户⽽⾮⼀般业务员,需要使⽤专业的分析⼯具,对分析结果还要以商业智能的⽅式进⾏表现,这是事务数据库不能提供的。
数据仓库的组成:
数据仓库数据库,数据抽取⼯具,元数据,访问⼯具,数据集市,数据仓库管理,信息发布系统
电子签章技术2.何谓数据挖掘?它有哪些⽅⾯的功能?
从⼤量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、⼈们事先不知道的、但⼜是潜在有⽤的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策⽀持等。
数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤⽴点分析以及偏差分析等。
3.数据挖掘对聚类的数据要求是什么?
(1)可伸缩性(2)处理不同类型属性的能⼒(3)发现任意形状的聚类(4)使输⼊参数的领域知识最⼩化(5)处理噪声数据的能⼒(6)对于输⼊顺序不敏感(7)⾼维性(8)基于约束的聚类(9)看解释性和可利⽤性
4.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的⽅式有
哪些?
粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的⼤⼩,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的⽅式主要有:
①简单堆积结构
②轮转综合结构
③简单直接结构
④连续结构
5.简述数据仓库4种体系结构的异同点以其适⽤性。
(1)两层架构
(2)独⽴型数据集市
(3)依赖型数据集市和操作型数据存储
(4)逻辑型数据集市和实时数据仓库
6.简述你对数据仓库未来发展趋势的看法。
在数据抽取⽅⾯,未来的技术发展将集中在系统集成化⽅⾯。它将互连、转换、复制、调度、监控纳⼊标准化的统⼀管理,使系统更便于管理和维护。在数据管理⽅⾯,未来的发展将使数据库⼚商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在数据表现⽅⾯,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web 技术紧密结合。
7.请列出3种数据仓库产品,并说明其优缺点。
(1)IBM 提供了基于可视化数据仓库的商业智能(BI)解决⽅案,包括:VisualWarehouse (VW),Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,其中,VW 是⼀个功能很强的集成环境,既可⽤于数据仓库建模和元数据管理,⼜可⽤于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server ⽀持“维”的定义和数据装载。
(2)Oracle 数据仓库解决⽅案主要包括Oracle Express 和Oracle Discoverer 两个部分。Oracle Express 由四个⼯具组成:Oracle Express Server 是⼀个MOLAP(多维OLAP)服务器,它利⽤多维模型,存储和管理多维数据库或多维⾼速缓存,同时也能够访问多种关系数据库
(3)Microsoft 将OLAP 功能集成到SQL Server 数据库中,其解决⽅案包括BI 平台、BI 终端⼯具、BI 门户和BI 应⽤四个部分
① BI 平台是BI 解决⽅案的基础,包括ETL 平台SQL Server 2005 IntegrationService(SSIS)、数据仓库引擎SQL Server 2005 RDBMS 以及多维分析和数据挖掘引擎SQLServer 2005 Analysis Service、报表管理引擎SQL Server 2005 Reporting Service。
8.什么是数据仓库的3层数据结构?
数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存
储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进⾏调和处理,形成⼀个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引⼊导出数据层,如形成满⾜各类分析需求的数据集市。
9.什么是数据仓库的数据ETL过程?
数据的ETL 过程就是负责将操作型数据转换成调和数据的过程。数据调和是构建⼀个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:⼀是企业级数据仓库(EDW)⾸次创建时的原始加载;⼆是接下来的定期修改,以保持EDW 的当前有效性和扩展性。
整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。事实上,这些步骤可以进
⾏不同的组合,如,可以将数据抽取与清洗组合为⼀个过程,或者将清洗和转换组合在⼀起。
10.什么是星型模式?它的特征是什么?
在星模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。位于星形中⼼的实体是事实表,是⽤户最关⼼的基本实体和查询活动的中⼼,为数据仓库的查询活动提供定量数据。位于星模式四周的实体是维度实体,其作⽤是限制和过滤⽤户的查询结果,缩⼩访问范围。每个维表都有
⾃⼰的属性,维表和事实表通过关键字相关联。
11.为什么时间总是数据仓库或数据集市的维?
WWW.02245.INFO因为数据仓库或数据集市的数据总是历史的数据,需要时间维来区别。
12.什么是⽤户信息需求表(信息包图法)?它为什么适⽤于数据仓库的概念模型的设计?
信息包图法,也叫⽤户信息需求表,就是在⼀张平⾯表格上描述元素的多维性,其中的每⼀个维度⽤平⾯表格的⼀列表⽰,通常的维度如时间、地点、产品和顾客等;⽽细化本列的对象就是类别,例如时间维度的类别可以细化到年、⽉、⽇,甚⾄⼩时;平⾯表格的最后⼀⾏(代表超⽴⽅体中的单元格)即为指标度量值,例如,某年在某销售点的某类产品的实际销售额。创建信息包图时需要确定最⾼层和最低层的信息需求,以便最终设计出包含各个层次需要的数据仓库。
总之,信息包图法是⼀种⾃上⽽下的数据建模⽅法,即从⽤户的观点开始设计(⽤户的观点是通过与⽤户交流得到的),站在管理者的⾓度把焦点集中在企业的⼀个或⼏个主题上,着重分析主题所涉及数据的多维特性,这种⾃上⽽下的⽅法⼏乎考虑了所有的信息源,以及这些信息源影响业务活动的⽅式。
13.简述数据仓库系统设计过程?
收集、分析和确认业务分析需求,分析和理解主题和元数据、事实及其量度、粒度和维度的选择与设计、数据仓库的物理存储⽅式的设计等。
14.⼀个数据仓库系统的建⽴通畅需要经过哪些步骤?
(1)收集和分析业务需求;(2)建⽴数据模型和数据仓库的物理设计;
(3)定义数据源;(4)选择数据仓库技术和平台;
(5)从操作型数据库中抽取、清洗及转换数据到数据仓库;
(6)选择访问和报表⼯具,选择数据库连接软件,选择数据分析和数据展⽰软件;
(7)更新数据仓库。
15.什么是关联规则?关联规则的应⽤有哪些?
关联规则挖掘是⽤来发现超级市场中⽤户购买的商品之间的隐含关联关系,并⽤规则的形式表⽰出来,称为关联规则(Association Rule)。
关联规则的应⽤还包括⽂本挖掘、商品⼴告邮寄分析、⽹络故障分析等。
16.关联规则的分类有哪些?关联规则挖掘的步骤包括什么?
关联规则的分类:
(1)基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。(3)基于规则中处理的变量的类型不同,关联规则可以分为布尔型和数值型。关联规则挖掘的步骤:
(1)出交易数据库中所有⼤于或等于⽤户指定的最⼩⽀持度的频繁项集;(2)利⽤频繁项集⽣成所需要的关联规则,根据⽤户设定的最⼩可信度进⾏取舍,产⽣强关联规则。
17.什么是分类?分类的应⽤领域有哪些?
分类是指把数据样本映射到⼀个事先定义的类中的学习过程,即给定⼀组输⼊的属性向量及其对应的类,⽤基于归纳的学习算法得出分类。
分类问题在商业、银⾏业、医疗诊断、⽣物学、⽂本挖掘、因特⽹筛选等领域都有⼴泛应⽤。例如,在银⾏业中,分类⽅法可以辅助⼯作⼈员将正常信⽤卡⽤户和欺诈信⽤卡⽤户进⾏分类,从⽽采取有效措施减⼩银⾏的损失;在医疗诊断中,分类⽅法可以帮助医疗⼈员将正常细胞和癌变细胞进⾏分类,从⽽及时制定救治⽅案,挽救病⼈的⽣命;
18.什么是聚类分析?聚类分析的应⽤领域有哪些?
聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较⾼的相似度,不同类别的数据样本之间具有较低的相似度。
聚类分析在科学数据分析、商业、⽣物学、医疗诊断、⽂本挖掘、Web 数据挖掘等域都有⼴泛应⽤。在商业领域,聚类可以帮助市场分析⼈员对客户的基本数据进⾏分析,发现购买模式不同的客户,从⽽协助市场调整销售计划;在⽂本挖掘和Web数据挖掘领域中,聚类可以将⽹站数据按照读者的兴趣度进⾏划分,有助于⽹站内容的改进。
19.贝叶斯⽹络的三个主要议题是什么?
贝叶斯⽹络的3个主要议题分别是:预测、诊断和历史数据训练。
20.怎样从历史数据中训练出结点之间的条件概率或联合条件概率?
要训练条件概率P(B|A),可以在历史数据中统计A 发⽣的次数T(A),然后统计在A 发⽣的数据中B 发⽣的次数T(A,B),条件概率P(B|A) = T(B)/T(A)。要训练联合条件概率P(C|A,B),可以在历史数据中统计A、B 共同发⽣的次数T(A,B),然后在A、B 共同发⽣的数据中统计C 发⽣的次数T(A,B,C),联合条件概率P(C|A,B)=T(A,B,C)/T(A,B)。以上的符号A、B、C 可以表⽰某个事件,也可以表⽰该事件的相
反事件。
21.如果叶贝斯⽹络的各个结点都没有任何证据,从历史数据中如何⽤两种不同的⽅法得到各个结点的发⽣概率?
可以⽤两种⽅式从历史数据中得到各个节点的发⽣概率:
(1)⽤各节点的发⽣次数除以总的数据条数,就是各个节点的发⽣概率。
(2)⾸先,⽤第⼀种⽅法计算原因节点的发⽣概率,然后计算原因节点到中间节点或结果节点的条件概率,最后根据原因节点的概率和这些条件概率计算结果节点的概率。
22.简述数据仓库与数据挖掘的关系?
数据仓库与数据挖掘都是决策⽀持新技术。但它们有着完全不同的辅助决策⽅式。
在数据仓库系统的前端的分析⼯具中,数据挖掘是其中重要⼯具之⼀。它可以帮助决策⽤户挖掘数据仓库的数据中隐含的规律性。
23.⽐较统计学与数据挖掘的异同?
统计学主要是对数量数据(数值)或连续值数据(如年龄、⼯资等),进⾏数值计算(如初等运算)的定量分析,得到数量信息。paas系统
数据挖掘主要对离散数据(如职称、病症等)进⾏定性分析(覆盖、归纳等),得到规则知识。
统计学与数据挖掘是有区别的。但是,它们之间是相互补充的。
24.⽐较OLAP的数据模型MOLAP与ROLAP?
MOLAP是事先⽣成多维⽴⽅体,供以后查询分析⽤,⽽ROLAP是通过动态的⽣成Sql,去做查询关系型数据库,如果没有做性能优化,数据量很⼤的时候,性能问题就会显得⽐较突出了。
25.⽐较数据挖掘与OLAP的差异?
OLAP的典型应⽤,通过商业活动变化的查询发现的问题,经过追踪查询出问题出现的原因,达到辅助决策的作⽤。
数据挖掘任务在于聚类(如神经⽹络聚类)、分类(如决策树分类)、预测等。
26.什么是关于数据仓库映射的元数据?
数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据:(1) 关于数据源的元数据
(2) 关于抽取和转换的元数据
(3) 关于最终⽤户的元数据
27.简述联机分析处理的四个特征?
(1)快速性:⽤户对OLAP的快速反应能⼒有很⾼的要求。
(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。
(3)多维性:系统必须提供对数据分析的多维视图和分析。
(4)信息性:OLAP系统应能及时获得信息,并且管理⼤容量的信息。
28.简述数据仓库设计的三级模型的基本内容。
(1)概念模型设计是在较⾼的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。
(2)逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。(3)物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。
29.举例说明聚类分析的典型应⽤。
道闸广告机①商业:帮助市场分析⼈员从客户基本库中发现不同的客户,并且⽤不同的购买模式
描述不同客户的特征。
②⽣物学:推导植物或动物的分类,对基于进⾏分类,获得对种中固有结构的认识。
无线收发芯片
③WEB⽂档分类
④其他:如地球观测数据库中相似地区的确定;各类保险投保⼈的分组;⼀个城市中不
同类型、价值、地理位置房⼦的分组等。
⑤聚类分析还可作为其他数据挖掘算法的预处理:即先进⾏聚类,然后再进⾏分类等其
他的数据挖掘。聚类分析是⼀种数据简化技术,它把基于相似数据特征的变量或个案组合在⼀起。
30.简述处理空缺值的⽅法。
①忽略该记录;②去掉属性;③⼿⼯填写空缺值;④使⽤默认值;
⑤使⽤属性平均值;⑥使⽤同类样本平均值;
31.列举操作型数据与分析型数据的主要区别。
倒立摆
32.何谓OLTP和OLAP?它们的主要异同有哪些?
OLTP即联机事务处理,是以传统数据库为基础、⾯向操作⼈员和低层管理⼈员、对基本数据进⾏查询和增、删、改等的⽇常事务处理。
OLAP即联机分析处理,是在OLTP基础上发展起来的、以数据仓库基础上的、⾯向⾼层管理⼈员和专业分析⼈员、为企业决策⽀持服务。
OLTP和OLAP的主要区别如下表:

本文发布于:2023-07-24 16:49:54,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/190619.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   数据仓库   分析   系统   规则   关联
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图