本科大数据系列教材《Hadoop大数据原理与应用》
“”
中国电子教育学会高教分会推荐·大数据系列教材
高等学校新工科应用型人才培养“十三五”规划教材
国信蓝桥教育科技(北京)股份有限公司推荐教材
本书面向Hadoop生态系统,以企业需求为导向,紧紧围绕大数据应用的闭环流程展开讲述,引导读者构建大数据知识体系和进行大数据技术的初级实践,旨在使读者掌握Hadoop生态系统的设计原理和Hadoop平台的运用能力。
本书分为上篇——Hadoop基础篇、中篇——Hadoop提高篇和下篇——案例篇三大部分,共11章,涉及数据采集、数据存储与管理、数据处理与分析、数据可视化一系列大数据应用生命周期中各阶段典型组件的理论知识、安装部署和实战使用。
向上滑动阅览
目录
第1章 大数据概述2
1.1 大数据内涵3
1.2 大数据的特征5
1.3 大数据的关键技术6
1.4 大数据产业8
1.5 大数据与物联网、云计算、人工智能、5G的关系11
1.6 大数据岗位介绍12
1.7 大数据学习路线13
本章小结14
思考与练习题15
第2章 初识Hadoop16
2.1 Hadoop概述17
2.2 Hadoop生态系统20
2.3 Hadoop的体系架构23
2.4 Hadoop的应用现状23
2.5 部署和运行Hadoop25
本章小结50
思考与练习题50
实验1 部署全分布模式Hadoop集群51
第3章 分布式文件系统HDFS52
3.1 HDFS简介53
3.2 HDFS的体系架构53
3.3 HDFS文件的存储机制55
3.4 HDFS数据的读/写过程57
3.5 实战HDFS60
3.6 HDFS的高可靠性机制75
本章小结89
思考与练习题89
实验2 实战HDFS90
第4章 分布式计算框架MapReduce91
4.1 MapReduce简介92
4.2 第一个MapReduce案例:WordCount92
4.3 MapReduce的作业执行流程97
4.4 MapReduce的数据类型与格式101
4.5 Shuffle的机制104
4.6 在MapReduce中自定义组件105
4.7 实战MapReduce109
4.8 MapReduce调优116
4.9 其他主流计算框架118
本章小结119
思考与练习题120
实验3 MapReduce编程120
第5章 统一资源管理和调度框架YARN122
5.1 初识YARN123
5.2 YARN的体系架构126
5.3 YARN的工作流程127
5.4 实战YARN129
5.5 YARN的新特性134
5.6 其他统一资源管理调度框架141
本章小结150
思考与练习题151
第6章 分布式协调框架ZooKeeper152
6.1 分布式协调技术153
6.2 初识ZooKeeper154
6.3 ZooKeeper的系统模型156
6.4 ZooKeeper的工作原理163
6.5 ZooKeeper的典型应用场景172
6.6 部署ZooKeeper集群176
6.7 实战ZooKeeper183
本章小结218
思考与练习题219
实验4 部署ZooKeeper集群和实战ZooKeeper220
第7章 分布式数据库HBase221
7.1 NoSQL简介222
7.2 初识HBase224
7.3 HBase的数据模型224
7.4 HBase的体系架构229
7.5 HBase的运行机制233
7.6 部署HBase集群235
7.7 实战HBase241
7.8 HBase的性能优化264
本章小结265
思考与练习题266
实验5 部署全分布模式HBase集群和实战HBase267
第8章 数据仓库Hive268
8.1 初识Hive269
8.2 Hive的体系架构271
8.3 Hive的数据类型273
8.4 Hive的文件格式275
8.5 Hive的数据模型275
8.6 Hive函数278
8.7 部署Hive285
8.8 实战Hive299
8.9 Hive的优化策略307
本章小结308
思考与练习题309
实验6 部署本地模式Hive和实战Hive309
中篇 Hadoop提高篇
第9章 大数据迁移和采集工具312
9.1 数据迁移工具Sqoop313
9.2 日志采集工具Flume344
9.3 分布式流平台Kafka357
9.4 ETL工具Kettle371
本章小结377
思考与练习题378
第10章 数据可视化379
10.1 可视化概念380
10.2 可视化的作用与意义381
10.3 可视化图表的类型386
10.4 可视化工具391
本章小结419
思考与练习题419
下篇 案 例 篇
第11章 华为P30手机评论画像分析422
11.1 需求分析423
11.2 项目设计423
11.3 项目环境搭建423
11.4 数据采集与预处理424
11.5 使用Hive分析数据430
11.6 数据可视化437
本章小结443
思考与练习题443
参考文献444
为了方便读者整体把握各章知识,在每章开始位置均配备有本章知识结构图。根据近几年的教学实践,建议安排32学时理论课,第1、2、5、10章每章安排2学时,第3、4、6、7、8、9章每章安排4学时,第11章由学生自学完成。另外,建议增加16学时的上机实践课。
本书面向高等院校计算机、大数据、人工智能等相关专业的研究生、本科生,可以作为专业核心课程大数据技术原理与应用的教材。本书拥有配套的实验教材《Hadoop大数据原理与应用实验教程》(亦由本书作者编写,由西安电子科技大学出版社出版),两本书配套使用,可以达到更好的学习效果。
责任编辑: