ETL 面试资料

阅读: 评论:0

题目
1.ETL部分
1.什么是数据准备区?在数据准备区中允许使用的数据结构有哪些?各有什么优缺点?
答:
2.简述异构数据源中的数据抽取技术。
答:
3.数据质量检查的四大类是什么?为每类提供一种实现技术。
答:
 
4.简述数据仓库中的表的基本类型,以及为了保证引用完整性该以什么样的顺序对它们进行加载。
答:
5.在ETL过程中四个基本的过程分别是什么?
答:
6.从ERP源系统中抽取数据最好的方法是什么?
答:
7.简述直接连接数据库和使用ODBC连接数据库进行通讯的优缺点。
答:
8.什么是代理键?简述代理键替换管道如何工作。
答:
9.什么叫缓慢维度变化?请分别阐述三大类维度处理方式
答:
10.车用暖风机如何实现增量抽取,分别阐述各种增量抽取方式,并且比较各种方式的优劣,及你推荐的做法
答:
11.用过什么ETL工具以及该工具简单讲述特点。
答:
12. ETL工具一般有哪些组成部分,其中数据流中常用的控件有?
答:
13.简述你在以前项目中的ETL架构思想。
答:
2.数据库部分
1. 比较truncate和delete 命令
答:
2. 视图与表有何区别?
答:
3.请说明ORACLE数据库中实例与数据库的关系,表空间和数据文件的关系。
答:
4. ORACLE中varchar2,char两种数据类型有什么区别,如果库表某字段输入“ABC”后储存,该 字段数据类型分别为varchar2(10),char(10)存储字节长度以及内容有何区别?
答:
5.出"作者"库表中没有出现在"获奖名单"库表中的所有作者信息的SQL语句,(提示:使用NOT IN,NOT EXISTS,以及外部连接三种方法),并说明那种方法是不优化的。
出版社: 出版社代码 char(2),出版社名称 varchar2(32)
金属粉末涂料
图书: 图书编号 char(8),图书名称 varchar2(128),出版社代码 char(2),作者代号char(4),图书简介 varchar2(128)
作者: 作者代号 char(4),作者名称 varchar2(10),性别 char(1),年龄 number(3),文学方向 varchar2(64)
获奖名单: 获奖日期 date,获奖人员 char(4)
答:
6.有下列两表
  Table1
     Col1   INT
     Col2   CHAR (30)
  Table2
     Col1   INT
     Col2   CHAR (30)
请问下列哪条语句会将table2的全部列插入到table1?                (  )
A.  INSERT INTO table1 (l2)
B.  INSERT INTO table1 SELECT col1, col2 FROM table2预绞丝
C.  INSERT INTO table1 VALUES (SELECT col1,col2 FROM table2)
D.  INSERT INTO table1 (col1, col2) VALUES (SELECT col1, col2 FROM table2)
7.有下列两表
  TAB1                          TAB2
C1    C2                        CX    CY
----    -----                      ------   -----
A      11                        A      21
段远程B      12                        C      22
C      13                        D      23
如果要得到如下的输出结果:
C1    C2    CX     CY
-----   -----    ----    -----
A      11     A      21
C      13     C      22
--    --    D      23
下列哪条语句会得到所需的结果?                              (  )
A.  SELECT * FROM tab1 INNER JOIN tab2 ON c1=cx
B.  SELECT * FROM tab2 FULL OUTER JOIN tab1 ON c1=cx
C.  SELECT *龙脑抑菌剂 FROM tab2 RIGHT OUTER JOIN tab1 ON c1=cx
D.  SELECT * FROM tab1 RIGHT OUTER JOIN tab2 ON c1=cx
8.事务有多个性质,其中不包括                                (  )
A.一致性      B.唯一性
C.原子性      D.隔离性
9.有一个空表t_empty,结构是:
create table t_empty
(
  a integer
)
请问以下各语句的输出分别是什么?
(A) select sum(a) from t_empty
(B) select nvl(a,0) from t_empty
(C) select count(*) from t_empty
答案
1.ETL部分
1. 在数据抽取阶段,我们需要连接到源系统,为了对源系统的影响尽量小,我们需要将抽取的数据保存成文本文件或者放入数据准备区的表中,这样,当ETL过程出现错误而失败时,我们就可以从这些文本文件开始ETL,而不需要再次影响源系统。这种存储数据的方式叫数据准备区。
1)固定格式的文本文件。Flat File指的是一种保存在系统上的一种文本文件格式,它以类似数据库的表的方式用行和列来保存数据。这种文件格式经常用来进行数据交换。用于保存
数据不太合适。
2)XML数据集。多用于数据交换,用户保存数据不太合适。
3)关系数据库的表。保存数据的较理想选择。
4)独立的数据库表。独立的数据库表一般指建立的表和其他表没有外键约束关系。这样的表多用于数据处理。
5)三范式或者关系型模型。
6)非关系型数据源。非关系型数据源一般包括COBOL copy books、VSAM文件、Flat文件、Spreadsheets等。
7)维度模型。
8)原子事实表和聚集事实表。
9)代理键查表。
2. 在数据仓库项目中,需要抽取的数据经常来自不同的数据源,它们的逻辑结构和物理结构都可能不同,即称之为异构数据源。
在对异构数据源进行整合抽取时,我们需要做的事情依次是标识出所有的源系统,对源系统进行概况分析,定义数据匹配逻辑,建立筛选规则,生成一致性维度。
3. 数据质量检查是ETL工作中非常重要的一步,主要关注一下四个方面。
1)正确性检查(Correct):检查数据值及其描述是否真实的反映了客观事务。例如地址的描述是否完全。
2)明确性检查(Unambiguous):检查数据值及其描述是否只有一个意思或者只有一个解释。例如地名相同的两个县需要加区分方法。
3)一致性检查(Consistent):检查数据值及其描述是否统一的采用固定的约定符号来表示。例如币别中人民币用'CNY'。
4)完全性检查(Complete):完全性有两个需要检查的地方,一个是检查字段的数据值及
其描述是否完全。例如检查是否有空值。另一个是检查记录的合计值是否完全,有没有遗忘某些条件。
4. 数据仓库中的表的基本类型有维度表、事实表、子维度表、桥接表等几类。其中子维度表即雪花模型由支架维度技术处理,桥接表用来处理多值维度或层级结构。
数据仓库中需要加载的各类表之间有相互依赖的关系,所以加载时需要以一定的顺序进行加载。下面是一些加载的基本原则:
1)子维度表加载成功后,再加载维度表。
2)维度表加载成功后,再加载桥接表。
malaki paul3)子维度表、维度表和桥接表都加载成功后,再加载事实表。
这个加载顺序可以通过主外键的关系来确定。
5. 数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取(extract)、清洗(clean)、一致性处理(confirm)和交付(delivery),简
称为ECCD。

本文发布于:2023-07-24 17:15:45,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/190644.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   维度   是否   抽取   需要   数据库
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图