第一章
1.试述信息技术开展史上的3次信息化浪潮及具体容。
答:运营式系统阶段,用户原创容阶段,感知式系统阶段。 3.试述大数据的4个根本特征
答:数据量大、数据类型繁多、处理速度快和价值密度低。
4.试述大数据时代的“数据爆炸〞的特性
答:大数据时代的“数据爆炸〞的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。
测试56
5.数据研究经历了哪4个阶段?
答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种式。 6.试述大数据对思维方式的重要影响
答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率
而非准确,相关而非因果。
7.大数据决策与传统的基于数据仓库的决策有什么区别
答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。 大数据决策可以面向类型繁多的、非构造化的海量数据进展决策分析。8.举例说明大数据的根本应用
答:
基础桩
9.举例说明大数据的关键技术
答:批处理计算,流计算,图计算,查询分析计算
10.大数据产业包含哪些关键技术。
答:IT根底设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。
11.定义并解释以下术语:云计算、物联网
答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT 资源。
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
第二章
1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系
答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
2.试述Hadoop具有哪些特性。动力电池模拟电源
答:高可靠性,高效性,高可扩展性,高容错性,本钱低,运行在Linu*平台,支持多种编程语言
3.试述Hadoop在各个领域的应用情况。
答:2007年,雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadooop集系统;
Facebook主要将Hadoop平台用于日志处理,推荐系统和数据仓库等方面; 百度主要使用Hadoop于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反应、网页聚类等。
4.试述Hadoop的工程构造以及每个局部的具体功能。
答:
meon是为Hadoop其他子工程提供支持的常用工具,主要包括文件系统、RPC 和串行化库
Avro是为Hadoop的子工程,用于数据序列化的系统,提供了丰富的数据构造类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。
HDFS是Hadoop工程的两个核心之一,它是针对谷歌文件系统的开源实现。HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。
毛发收集器MapReduce是针对谷歌MapReduce的开源实现,用于大规模数据集的并行运算。Zoookepper是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的根本效劳,用于构建分布式应用,减轻分布式应用程序所承当的协调任务。
数据加密网关Hive是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进展数据整理、特殊查询和分布存储。
Pig是一种数据流语言和运行环境,适合于使用Hadoop和MapReducce平台上查