《Hadoop海量数据处理技术详解与项目实战（第2版）》_范东来

aixure · 发表于 2023-1-24 17:48:19

图书目录[url=]编辑[/url][url=] 播报[/url]
基础篇：Hadoop基础
第1章　绪论　2
1.1　Hadoop和云计算　2
1.1.1　Hadoop的电梯演讲　2
1.1.2　Hadoop生态圈　3
1.1.3　云计算的定义　6
1.1.4　云计算的类型　7
1.1.5　Hadoop和云计算　8
1.2　Hadoop和大数据　9
1.2.1　大数据的定义　9
1.2.2　大数据的结构类型　10
1.2.3　大数据行业应用实例　12
1.2.4　Hadoop和大数据　13
1.2.5　其他大数据处理平台　14
1.3　数据挖掘和商业智能　15
1.3.1　数据挖掘的定义　15
1.3.2　数据仓库　17
1.3.3　操作数据库系统和数据仓库系统的区别　18
1.3.4　为什么需要分离的数据仓库　19
1.3.5　商业智能　19
1.3.6　大数据时代的商业智能　20
1.4　小结　21
第2章　环境准备　22
2.1　Hadoop的发行版本选择　22
2.1.1　Apache Hadoop　22
2.1.2　CDH　22
2.1.3　Hadoop的版本　23
2.1.4　如何选择Hadoop的版本　25
2.2　Hadoop架构　26
2.2.1　Hadoop HDFS架构　27
2.2.2　YARN架构　28
2.2.3　Hadoop架构　28
2.3　安装Hadoop　29
2.3.1　安装运行环境　30
2.3.2　修改主机名和用户名　36
2.3.3　配置静态IP地址　36
2.3.4　配置SSH无密码连接　37
2.3.5　安装JDK　38
2.3.6　配置Hadoop　39
2.3.7　格式化HDFS　42
2.3.8　启动Hadoop并验证安装　42
2.4　安装Hive　43
2.4.1　安装元数据库　44
2.4.2　修改Hive配置文件　44
2.4.3　验证安装　45
2.5　安装HBase　46
2.5.1　解压文件并修改Zookeeper相关配置　46
2.5.2　配置节点　46
2.5.3　配置环境变量　47
2.5.4　启动并验证　47
2.6　安装Sqoop　47
2.7　Cloudera Manager　48
2.8　小结　51
第3章　Hadoop的基石：HDFS　52
3.1　认识HDFS　52
3.1.1　HDFS的设计理念　54
3.1.2　HDFS的架构　54
3.1.3　HDFS容错　58
3.2　HDFS读取文件和写入文件　58
3.2.1　块的分布　59
3.2.2　数据读取　60
3.2.3　写入数据　61
3.2.4　数据完整性　62
3.3　如何访问HDFS　63
3.3.1　命令行接口　63
3.3.2　Java API　66
3.3.3　其他常用的接口　75
3.3.4　Web UI　75
3.4　HDFS中的新特性　76
3.4.1　NameNode HA　76
3.4.2　NameNode Federation　78
3.4.3　HDFS Snapshots　79
3.5　小结　79
第4章　YARN：统一资源管理和调平台　80
4.1　YARN是什么　80
4.2　统一资源管理和调度平台范型　81
4.2.1　集中式调度器　81
4.2.2　双层调度器　81
4.2.3　状态共享调度器　82
4.3　YARN的架构　82
4.3.1　ResourceManager　83
4.3.2　NodeManager　85
4.3.3　ApplicationMaster　87
4.3.4　YARN的资源表示模型Container　87
4.4　YARN的工作流程　88
4.5　YARN的调度器　89
4.5.1　YARN的资源管理机制　89
4.5.2　FIFO Scheduler　90
4.5.3　Capacity Scheduler　90
4.5.4　Fair Scheduler　91
4.6　YARN命令行　92
4.7　Apache Mesos　95
4.8　小结　96
第5章　分而治之的智慧：MapReduce　97
5.1　认识MapReduce　97
5.1.1　MapReduce的编程思想　98
5.1.2　MapReduce运行环境　100
5.1.3　MapReduce作业和任务　102
5.1.4　MapReduce的计算资源划分　102
5.1.5　MapReduce的局限性　103
5.2　Hello Word Count　104
5.2.1　Word Count的设计思路　104
5.2.2　编写Word Count　105
5.2.3　运行程序　107
5.2.4　还能更快吗　109
5.3　MapReduce的过程　109
5.3.1　从输入到输出　109
5.3.2　input　110
5.3.3　map及中间结果的输出　112
5.3.4　shuffle　113
5.3.5　reduce及最后结果的输出　115
5.3.6　sort　115
5.3.7　作业的进度组成　116
5.4　MapReduce的工作机制　116
5.4.1　作业提交　117
5.4.2　作业初始化　118
5.4.3　任务分配　118
5.4.4　任务执行　118
5.4.5　任务完成　118
5.4.6　推测执行　119
5.4.7　MapReduce容错　119
5.5　MapReduce编程　120
5.5.1　Writable类　120
5.5.2　编写Writable类　123
5.5.3　编写Mapper类　124
5.5.4　编写Reducer类　125
5.5.5　控制shuffle　126
5.5.6　控制sort　128
5.5.7　编写main函数　129
5.6　MapReduce编程实例：连接　130
5.6.1　设计思路　131
5.6.2　编写Mapper类　131
5.6.3　编写Reducer类　132
5.6.4　编写main函数　133
5.7　MapReduce编程实例：二次排序　134
5.7.1　设计思路　134
5.7.2　编写Mapper类　135
5.7.3　编写Partitioner类　136
5.7.4　编写SortComparator类　136
5.7.5　编写Reducer类　137
5.7.6　编写main函数　137
5.8　MapReduce编程实例：全排序　139
5.8.1　设计思路　139
5.8.2　编写代码　140
5.9　小结　141
第6章　SQL on Hadoop：Hive　142
6.1　认识Hive　142
6.1.1　从MapReduce到SQL　143
6.1.2　Hive架构　144
6.1.3　Hive与关系型数据库的区别　146
6.1.4　Hive命令的使用　147
6.2　数据类型和存储格式　149
6.2.1　基本数据类型　149
6.2.2　复杂数据类型　149
6.2.3　存储格式　150
6.2.4　数据格式　151
6.3　HQL：数据定义　152
6.3.1　Hive中的数据库　152
6.3.2　Hive中的表　154
6.3.3　创建表　154
6.3.4　管理表　156
6.3.5　外部表　156
6.3.6　分区表　156
6.3.7　删除表　158
6.3.8　修改表　158
6.4　HQL：数据操作　159
6.4.1　装载数据　159
6.4.2　通过查询语句向表中插入数据　160
6.4.3　利用动态分区向表中插入数据　160
6.4.4　通过CTAS加载数据　161
6.4.5　导出数据　161
6.5　HQL：数据查询　162
6.5.1　SELECT…FROM语句　162
6.5.2　WHERE语句　163
6.5.3　GROUP BY和HAVING语句　164
6.5.4　JOIN语句　164
6.5.5　ORDER BY和SORT BY语句　166
6.5.6　DISTRIBUTE BY和SORT BY语句　167
6.5.7　CLUSTER BY　167
6.5.8　分桶和抽样　168
6.5.9　UNION ALL　168
6.6　Hive函数　168
6.6.1　标准函数　168
6.6.2　聚合函数　168
6.6.3　表生成函数　169
6.7　Hive用户自定义函数　169
6.7.1　UDF　169
6.7.2　UDAF　170
6.7.3　UDTF　171
6.7.4　运行　173
6.8　小结　173
第7章　SQL to Hadoop : Sqoop　174
7.1　一个Sqoop示例　174
7.2　导入过程　176
7.3　导出过程　178
7.4　Sqoop的使用　179
7.4.1　codegen　180
7.4.2　create-hive-table　180
7.4.3　eval　181
7.4.4　export　181
7.4.5　help　182
7.4.6　import　182
7.4.7　import-all-tables　183
7.4.8　job　184
7.4.9　list-databases　184
7.4.10　list-tables　184
7.4.11　merge　184
7.4.12　metastore　185
7.4.13　version　186
7.5　小结　186
第8章　HBase:HadoopDatabase　187
8.1　酸和碱：两种数据库事务方法论　187
8.1.1　ACID　188
8.1.2　BASE　188
8.2　CAP定理　188
8.3　NoSQL的架构模式　189
8.3.1　键值存储　189
8.3.2　图存储　190
8.3.3　列族存储　191
8.3.4　文档存储　192
8.4　HBase的架构模式　193
8.4.1　行键、列族、列和单元格　193
8.4.2　HMaster　194
8.4.3　Region和RegionServer　195
8.4.4　WAL　195
8.4.5　HFile　195
8.4.6　Zookeeper　197
8.4.7　HBase架构　197
8.5　HBase写入和读取数据　198
8.5.1　Region定位　198
8.5.2　HBase写入数据　199
8.5.3　HBase读取数据　199
8.6　HBase基础API　200
8.6.1　创建表　201
8.6.2　插入　202
8.6.3　读取　203
8.6.4　扫描　204
8.6.5　删除单元格　206
8.6.6　删除表　207
8.7　HBase高级API　207
8.7.1　过滤器　208
8.7.2　计数器　208
8.7.3　协处理器　209
8.8　小结　214
第9章　Hadoop性能调优和运维　215
9.1　Hadoop客户端　215
9.2　Hadoop性能调优　216
9.2.1　选择合适的硬件　216
9.2.2　操作系统调优　218
9.2.3　JVM调优　219
9.2.4　Hadoop参数调优　219
9.3　Hive性能调优　225
9.3.1　JOIN优化　226
9.3.2　Reducer的数量　226
9.3.3　列裁剪　226
9.3.4　分区裁剪　226
9.3.5　GROUP BY优化　226
9.3.6　合并小文件　227
9.3.7　MULTI-GROUP BY和MULTI-INSERT　228
9.3.8　利用UNION ALL 特性　228
9.3.9　并行执行　228
9.3.10　全排序　228
9.3.11　Top N　229
9.4　HBase调优　229
9.4.1　通用调优　229
9.4.2　客户端调优　230
9.4.3　写调优　231
9.4.4　读调优　231
9.4.5　表设计调优　232
9.5　Hadoop运维　232
9.5.1　集群节点动态扩容和卸载　233
9.5.2　利用SecondaryNameNode恢复NameNode　234
9.5.3　常见的运维技巧　234
9.5.4　常见的异常处理　235
9.6　小结　236

更多资源请咨询课小二

客服QQ

大厂学院重磅上线-大厂学院SVIP十门合集

金职位_Java架构师-技术专家

[完结]大前端2022版

Java工程师高薪训练营【完结】

体系课-大数据工程师2022

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师移动架构师

hot016-大厂学院10套合集

jk005-Go进阶训练营-极客时间（11周）

《Hadoop海量数据处理技术详解与项目实战（第2版）》_范东来

温馨提示：

相关帖子

金职位_Web前端架构师【完结】

金职位_Java架构师-技术专家

[完结]大前端2022版

金职位_Go开发工程师[完结]

mksz469-Go+Python双语言混合开发【完结】

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师移动架构师

关于我们

帮助中心

新手指南

客服QQ

87887023

反馈建议

更多资源请咨询课小二

客服QQ

金职位_Java架构师-技术专家

[完结]大前端2022版

Java工程师高薪训练营【完结】

体系课-大数据工程师2022

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师 移动架构师

hot016-大厂学院10套合集

jk005-Go进阶训练营-极客时间（11周）

《Hadoop海量数据处理技术详解与项目实战（第2版）》_范东来

温馨提示：

相关帖子

关于我们

帮助中心

新手指南

客服QQ

87887023

反馈建议

金职位_移动端架构师移动架构师