《Spark SQL入门与实践指南》

aixure · 发表于 2023-1-22 10:57:51

内容简介[url=]编辑[/url][url=] 播报[/url]
Spark SQL是 Spark大数据框架的一部分，支持使用标准SQL查询和HiveQL来读写数据，可用于结构化数据处理，并可以执行类似SQL的Spark数据查询，有助于开发人员更快地创建和运行Spark程序。全书分为4篇，共9章，第一篇讲解了Spark SQL 发展历史和开发环境搭建。第二篇讲解了Spark SQL 实例，使得读者掌握Spark SQL的入门操作，了解Spark RDD、DataFrame和DataSet，并熟悉 DataFrame 各种操作。第三篇讲解了基于WiFi探针的商业大数据分析项目，实例中包含数据采集、预处理、存储、利用Spark SQL 挖掘数据，一步一步带领读者学习Spark SQL强大的数据挖掘功能。第四篇讲解了Spark SQL 优化的知识。本书适合Spark初学者、Spark数据分析人员以及Spark程序开发人员，也适合高校和培训学校相关专业的师生教学参考。 [1]

图书作者[url=]编辑[/url][url=] 播报[/url]
纪涵，数据挖掘、云计算爱好者，曾负责多个中小型网站的开发维护工作，曾参与开发设计多款面向校园服务的App，参与开发设计过多个基于Hadoop、Spark平台的大数据应用，有着丰富的流数据、结构化数据处理经验，现主要研究方向为机器学习、数据挖掘。 [1]

图书目录[url=]编辑[/url][url=] 播报[/url]
第一部分入门篇
第1章初识Spark SQL 3
1.1 Spark SQL的前世今生 3
1.2 Spark SQL能做什么 4
第2章 Spark安装、编程环境搭建以及打包提交 6
2.1 Spark的简易安装 6
2.2 准备编写Spark应用程序的IDEA环境 10
2.3 将编写好的Spark应用程序打包成jar提交到Spark上 18
第二部分基础篇
第3章 Spark上的RDD编程 23
3.1 RDD基础 24
3.1.1 创建RDD 24
3.1.2 RDD转化操作、行动操作 24
3.1.3 惰性求值 25
3.1.4 RDD缓存概述 26
3.1.5 RDD基本编程步骤 26
3.2 RDD简单实例—wordcount 27
3.3 创建RDD 28
3.3.1 程序内部数据作为数据源 28
3.3.2 外部数据源 29
3.4 RDD操作 33
3.4.1 转化操作 34
3.4.2 行动操作 37
3.4.3 惰性求值 38
3.5 向Spark传递函数 39
3.5.1 传入匿名函数 39
3.5.2 传入静态方法和传入方法的引用 40
3.5.3 闭包的理解 41
3.5.4 关于向Spark传递函数与闭包的总结 42
3.6 常见的转化操作和行动操作 42
3.6.1 基本RDD转化操作 43
3.6.2 基本RDD行动操作 48 [1]
3.6.3键值对RDD52
3.6.4不同类型RDD之间的转换56
3.7深入理解RDD57
3.8RDD缓存、持久化59
3.8.1RDD缓存59
3.8.2RDD持久化61
3.8.3持久化存储等级选取策略63
3.9RDDcheckpoint容错机制64
第4章SparkSQL编程入门66
4.1SparkSQL概述66
4.1.1SparkSQL是什么66
4.1.2SparkSQL通过什么来实现66
4.1.3SparkSQL处理数据的优势67
4.1.4SparkSQL数据核心抽象——DataFrame67
4.2SparkSQL编程入门示例69
4.2.1程序主入口：SparkSession69
4.2.2创建DataFrame70
4.2.3DataFrame基本操作70
4.2.4执行SQL查询72
4.2.5全局临时表73
4.2.6Dataset73
4.2.7将RDDs转化为DataFrame75
4.2.8用户自定义函数78
第5章SparkSQL的DataFrame操作大全82
5.1由JSON文件生成所需的DataFrame对象82
5.2DataFrame上的行动操作84
5.3DataFrame上的转化操作91
5.3.1where条件相关92
5.3.2查询指定列94
5.3.3思维开拓：Column的巧妙应用99
5.3.4limit操作102
5.3.5排序操作：orderby和sort103
5.3.6groupby操作106
5.3.7distinct、dropDuplicates去重操作107
5.3.8聚合操作109
5.3.9union合并操作110
5.3.10join操作111
5.3.11获取指定字段统计信息114
5.3.12获取两个DataFrame中共有的记录116
5.3.13获取一个DataFrame中有另一个DataFrame中没有的记录116
5.3.14操作字段名117
5.3.15处理空值列118
第6章SparkSQL支持的多种数据源121
6.1概述121
6.1.1通用load/save函数121
6.1.2手动指定选项123
6.1.3在文件上直接进行SQL查询123
6.1.4存储模式123
6.1.5持久化到表124
6.1.6bucket、排序、分区操作124
6.2典型结构化数据源125
6.2.1Parquet文件125
6.2.2JSON数据集129
6.2.3Hive表130
6.2.4其他数据库中的数据表133
第三部分实践篇
第7章SparkSQL工程实战之基于WiFi探针的商业大数据分析技术139
7.1功能需求139
7.1.1数据收集139
7.1.2数据清洗140
7.1.3客流数据分析141
7.1.4数据导出142
7.2系统架构142
7.3功能设计143
7.4数据库结构144
7.5本章小结144
第8章第一个SparkSQL应用程序145
8.1完全分布式环境搭建145
8.1.1Java环境配置145
8.1.2Hadoop安装配置146
8.1.3Spark安装配置149
8.2数据清洗150
8.3数据处理流程153
8.4Spark程序远程调试164
8.4.1导出jar包164
8.4.2IDEA配置168
8.4.3服务端配置170
8.5Spark的Web界面171
8.6本章小结172
第四部分优化篇
第9章让Spark程序再快一点175
9.1Spark执行流程175
9.2Spark内存简介176
9.3Spark的一些概念177
9.4Spark编程四大守则178
9.5Spark调优七式183
9.6解决数据倾斜问题192
9.7Spark执行引擎Tungsten简介195
9.8SparkSQL解析引擎Catalyst简介197
9.9本章小结200 [2]

更多资源请咨询课小二

客服QQ

大厂学院重磅上线-大厂学院SVIP十门合集

金职位_Java架构师-技术专家

[完结]大前端2022版

Java工程师高薪训练营【完结】

体系课-大数据工程师2022

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师移动架构师

hot016-大厂学院10套合集

jk005-Go进阶训练营-极客时间（11周）

《Spark SQL入门与实践指南》

温馨提示：

相关帖子

金职位_Web前端架构师【完结】

金职位_Java架构师-技术专家

[完结]大前端2022版

金职位_Go开发工程师[完结]

mksz469-Go+Python双语言混合开发【完结】

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师移动架构师

关于我们

帮助中心

新手指南

客服QQ

87887023

反馈建议

更多资源请咨询课小二

客服QQ

金职位_Java架构师-技术专家

[完结]大前端2022版

Java工程师高薪训练营【完结】

体系课-大数据工程师2022

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师 移动架构师

hot016-大厂学院10套合集

jk005-Go进阶训练营-极客时间（11周）

《Spark SQL入门与实践指南》

温馨提示：

相关帖子

关于我们

帮助中心

新手指南

客服QQ

87887023

反馈建议

金职位_移动端架构师移动架构师