《Python+Spark 2.0+Hadoop机器学习与大数据实战》

aixure · 发表于 2023-1-22 20:23:38

Python+Spark 2.0+Hadoop机器学习与大数据实战
作者：林大贵
定价：99元
印次：1-1
ISBN：9787302490739
出版日期：2018.01.01
印刷日期：2017.12.14
本书从浅显易懂的“大数据和机器学习”原理说明入手，讲述大数据和机器学习的基本概念，如分类、分析、训练、建模、预测、机器学习（推荐引擎）、机器学习（二元分类）、机器学习（多元分类）、机器学习（回归分析）和数据可视化应用等。 [1]
目录
第1章PythonSpark机器学习与Hadoop大数据 1
1.1机器学习的介绍 2
1.2Spark的介绍 5
1.3Spark数据处理RDD、DataFrame、SparkSQL 7
1.4使用Python开发Spark机器学习与大数据应用 8
1.5PythonSpark机器学习 9
1.6SparkMLPipeline机器学习流程介绍 10
1.7Spark2.0的介绍 12
1.8大数据定义 13
1.9Hadoop简介 14
1.10HadoopHDFS分布式文件系统 14
1.11HadoopMapReduce的介绍 17
1.12结论 18
第2章VirtualBox虚拟机软件的安装 19
2.1VirtualBox的下载和安装 20
2.2设置VirtualBox存储文件夹 23
2.3在VirtualBox创建虚拟机 25
2.4结论 29
第3章UbuntuLinux操作系统的安装 30
3.1UbuntuLinux操作系统的安装 31
3.2在Virtual设置Ubuntu虚拟光盘文件 33
3.3开始安装Ubuntu 35
3.4启动Ubuntu 40
3.5安装增强功能 41
3.6设置默认输入法 45
3.7设置“终端”程序 48
3.8设置“终端”程序为白底黑字 49
3.9设置共享剪贴板 50
3.10设置最佳下载服务器 52
3.11结论 56
第4章HadoopSingleNodeCluster的安装 57
4.1安装JDK 58
4.2设置SSH无密码登录 61
4.3下载安装Hadoop 64
4.4设置Hadoop环境变量 67
4.5修改Hadoop配置设置文件 69
4.6创建并格式化HDFS目录 73
4.7启动Hadoop 74
4.8打开HadoopResource-ManagerWeb界面 76
4.9NameNodeHDFSWeb界面 78
4.10结论 79
第5章HadoopMultiNodeCluster的安装 80
5.1把SingleNodeCluster复制到data1 83
5.2设置VirtualBox网卡 84
5.3设置data1服务器 87
5.4复制data1服务器到data2、data3、master 94
5.5设置data2服务器 97
5.6设置data3服务器 100
5.7设置master服务器 102
5.8master连接到data1、data2、data3创建HDFS目录 107
5.9创建并格式化NameNodeHDFS目录 110
5.10启动HadoopMultiNodeCluster 112
5.11打开HadoopResourceManagerWeb界面 114
5.12打开NameNodeWeb界面 115
5.13停止HadoopMultiNodeCluster 116
5.14结论 116
第6章HadoopHDFS命令 117
6.1启动HadoopMulti-NodeCluster 118
6.2创建与查看HDFS目录 120
6.3从本地计算机复制文件到HDFS 122
6.4将HDFS上的文件复制到本地计算机 127 [2]
6.5复制与删除HDFS文件 129
6.6在HadoopHDFSWeb用户界面浏览HDFS 131
6.7结论 134
第7章HadoopMapReduce 135
7.1简单介绍WordCount.java 136
7.2编辑WordCount.java 137
7.3编译WordCount.java 141
7.4创建测试文本文件 143
7.5运行WordCount.java 145
7.6查看运行结果 146
7.7结论 147
第8章PythonSpark的介绍与安装 148
8.1Scala的介绍与安装 150
8.2安装Spark 153
8.3启动pyspark交互式界面 156
8.4设置pyspark显示信息 157
8.5创建测试用的文本文件 159
8.6本地运行pyspark程序 161
8.7在HadoopYARN运行pyspark 163
8.8构建SparkStandaloneCluster运行环境 165
8.9在SparkStandalone运行pyspark 171
8.10SparkWebUI界面 173
8.11结论 175
第9章在IPythonNotebook运行PythonSpark程序 176
9.1安装Anaconda 177
9.2在IPythonNotebook使用Spark 180
9.3打开IPythonNotebook笔记本 184
9.4插入程序单元格 185
9.5加入注释与设置程序代码说明标题 186
9.6关闭IPythonNotebook 188
9.7使用IPythonNotebook在HadoopYARN-client模式运行 189
9.8使用IPythonNotebook在SparkStandAlone模式运行 192
9.9整理在不同的模式运行IPythonNotebook的命令 194
9.9.1在Local启动IPythonNotebook 195
9.9.2在HadoopYARN-client模式启动IPythonNotebook 195
9.9.3在SparkStandAlone模式启动IPythonNotebook 195
9.10结论 196
第10章PythonSparkRDD 197
10.1RDD的特性 198
10.2开启IPythonNotebook 199
10.3基本RDD“转换”运算 201
10.4多个RDD“转换”运算 206
10.5基本“动作”运算 208
10.6RDDKey-Value基本“转换”运算 209
10.7多个RDDKey-Value“转换”运算 212
10.8Key-Value“动作”运算 215
10.9Broadcast广播变量 217
10.10accumulator累加器 220
10.11RDDPersistence持久化 221
10.12使用Spark创建WordCount 223
10.13SparkWordCount详细解说 226
10.14结论 228
第11章PythonSpark的集成开发环境 229
11.1下载与安装eclipseScalaIDE 232
11.2安装PyDev 235
11.3设置字符串替代变量 240
11.4PyDev设置Python链接库 243
11.5PyDev设置anaconda2链接库路径 245
11.6PyDev设置SparkPython链接库 247
11.7PyDev设置环境变量 248
11.8新建PyDev项目 251
11.9加入WordCount.py程序 253
11.10输入WordCount.py程序 254
11.11创建测试文件并上传至HDFS目录 257
11.12使用spark-submit执行WordCount程序 259
11.13在HadoopYARN-client上运行WordCount程序 261
11.14在SparkStandaloneCluster上运行WordCount程序 264
11.15在eclipse外部工具运行PythonSpark程序 267
11.16在eclipse运行spark-submitYARN-client 273
11.17在eclipse运行spark-submitStandalone 277
11.18结论 280
第12章PythonSpark创建推荐引擎 281
12.1推荐算法介绍 282
12.2“推荐引擎”大数据分析使用场景 282
12.3ALS推荐算法的介绍 283
12.4如何搜索数据 285
12.5启动IPythonNotebook 289
12.6如何准备数据 290 [2]
12.7如何训练模型 294
12.8如何使用模型进行推荐 295
12.9显示推荐的电影名称 297
12.10创建Recommend项目 299
12.11运行RecommendTrain.py推荐程序代码 302
12.12创建Recommend.py推荐程序代码 304
12.13在eclipse运行Recommend.py 307
12.14结论 310
第13章PythonSparkMLlib决策树二元分类 311
13.1决策树介绍 312
13.2“StumbleUponEvergreen”大数据问题 313
13.2.1Kaggle网站介绍 313
13.2.2“StumbleUponEvergreen”大数据问题场景分析 313
13.3决策树二元分类机器学习 314
13.4如何搜集数据 315
13.4.1StumbleUpon数据内容 315
13.4.2下载StumbleUpon数据 316
13.4.3用LibreOfficeCalc电子表格查看train.tsv 319
13.4.4复制到项目目录 322
13.5使用IPythonNotebook示范 323
13.6如何进行数据准备 324
13.6.1导入并转换数据 324
13.6.2提取feature特征字段 327
13.6.3提取分类特征字段 328
13.6.4提取数值特征字段 331
13.6.5返回特征字段 331
13.6.6提取label标签字段 331
13.6.7建立训练评估所需的数据 332
13.6.8以随机方式将数据分为3部分并返回 333
13.6.9编写PrepareData(sc)函数 333
13.7如何训练模型 334
13.8如何使用模型进行预测 335
13.9如何评估模型的准确率 338
13.9.1使用AUC评估二元分类模型 338
13.9.2计算AUC 339
13.10模型的训练参数如何影响准确率 341
13.10.1建立trainEvaluateModel 341
13.10.2评估impurity参数 343
13.10.3训练评估的结果以图表显示 344
13.10.4编写evalParameter 347
13.10.5使用evalParameter评估maxDepth参数 347
13.10.6使用evalParameter评估maxBins参数 348
13.11如何找出准确率最高的参数组合 349
13.12如何确认是否过度训练 352
13.13编写RunDecisionTreeBinary.py程序 352
13.14开始输入RunDecisionTreeBinary.py程序 353
13.15运行RunDecisionTreeBinary.py 355
13.15.1执行参数评估 355
13.15.2所有参数训练评估找出最好的参数组合 355
13.15.3运行RunDecisionTreeBinary.py不要输入参数 357
13.16查看DecisionTree的分类规则 358
13.17结论 360
第14章PythonSparkMLlib逻辑回归二元分类 361
14.1逻辑回归分析介绍 362
14.2RunLogisticRegressionWithSGDBinary.py程序说明 363
14.3运行RunLogisticRegressionWithSGDBinary.py进行参数评估 367
14.4找出最佳参数组合 370
14.5修改程序使用参数进行预测 370
14.6结论 372
第15章PythonSparkMLlib支持向量机SVM二元分类 373
15.1支持向量机SVM算法的基本概念 374
15.2运行SVMWithSGD.py进行参数评估 376
15.3运行SVMWithSGD.py训练评估参数并找出最佳参数组合 378
15.4运行SVMWithSGD.py使用最佳参数进行预测 379
15.5结论 381
第16章PythonSparkMLlib朴素贝叶斯二元分类 382
16.1朴素贝叶斯分析原理的介绍 383
16.2RunNaiveBayesBinary.py程序说明 384
16.3运行NaiveBayes.py进行参数评估 386
16.4运行训练评估并找出最好的参数组合 387
16.5修改RunNaiveBayesBinary.py直接使用最佳参数进行预测 388
16.6结论 390
第17章PythonSparkMLlib决策树多元分类 391
17.1“森林覆盖植被”大数据问题分析场景 392
17.2UCICovertype数据集介绍 393
17.3下载与查看数据 394
17.4修改PrepareData()数据准备 396
17.5修改trainModel训练模型程序 398
17.6使用训练完成的模型预测数据 399
17.7运行RunDecisionTreeMulti.py进行参数评估 401
17.8运行RunDecisionTreeMulti.py训练评估参数并找出最好的参数组合 403
17.9运行RunDecisionTreeMulti.py不进行训练评估 404
17.10结论 406
第18章PythonSparkMLlib决策树回归分析 407
18.1BikeSharing大数据问题分析 408
18.2BikeSharing数据集 409
18.3下载与查看数据 409
18.4修改PrepareData()数据准备 412
18.5修改DecisionTree.trainRegressor训练模型 415
18.6以RMSE评估模型准确率 416 [2]
18.7训练评估找出最好的参数组合 417
18.8使用训练完成的模型预测数据 417
18.9运行RunDecisionTreeMulti.py进行参数评估 419
18.10运行RunDecisionTreeMulti.py训练评估参数并找出最好的参数组合 421
18.11运行RunDecisionTreeMulti.py不进行训练评估 422
18.12结论 424
第19章PythonSparkSQL、DataFrame、RDD数据统计与可视化 425
19.1RDD、DataFrame、SparkSQL比较 426
19.2创建RDD、DataFrame与SparkSQL 427
19.2.1在local模式运行IPythonNotebook 427
19.2.2创建RDD 427
19.2.3创建DataFrame 428
19.2.4设置IPythonNotebook字体 430
19.2.5为DataFrame创建别名 431
19.2.6开始使用SparkSQL 431
19.3SELECT显示部分字段 434
19.3.1使用RDD选取显示部分字段 434
19.3.2使用DataFrames选取显示字段 434
19.3.3使用SparkSQL选取显示字段 435
19.4增加计算字段 436
19.4.1使用RDD增加计算字段 436
19.4.2使用DataFrames增加计算字段 436
19.4.3使用SparkSQL增加计算字段 437
19.5筛选数据 438
19.5.1使用RDD筛选数据 438
19.5.2使用DataFrames筛选数据 438
19.5.3使用SparkSQL筛选数据 439
19.6按单个字段给数据排序 439
19.6.1RDD按单个字段给数据排序 439
19.6.2使用SparkSQL排序 440
19.6.3使用DataFrames按升序给数据排序 441
19.6.4使用DataFrames按降序给数据排序 442
19.7按多个字段给数据排序 442
19.7.1RDD按多个字段给数据排序 442
19.7.2SparkSQL按多个字段给数据排序 443
19.7.3DataFrames按多个字段给数据排序 443
19.8显示不重复的数据 444
19.8.1RDD显示不重复的数据 444
19.8.2SparkSQL显示不重复的数据 445
19.8.3Dataframes显示不重复的数据 445
19.9分组统计数据 446
19.9.1RDD分组统计数据 446
19.9.2SparkSQL分组统计数据 447
19.9.3Dataframes分组统计数据 448
19.10Join联接数据 450
19.10.1创建ZipCode 450
19.10.2创建zipcode_tab 452
19.10.3SparkSQL联接zipcode_table数据表 454
19.10.4DataFrameuser_df联接zipcode_df 455
19.11使用PandasDataFrames绘图 457
19.11.1按照不同的州统计并以直方图显示 457
19.11.2按照不同的职业统计人数并以圆饼图显示 459
19.12结论 461
第20章SparkMLPipeline机器学习流程二元分类 462
20.1数据准备 464
20.1.1在local模式执行IPythonNotebook 464
20.1.2编写DataFramesUDF用户自定义函数 466
20.1.3将数据分成train_df与test_df 468
20.2机器学习pipeline流程的组件 468
20.2.1StringIndexer 468
20.2.2OneHotEncoder 470
20.2.3VectorAssembler 472
20.2.4使用DecisionTreeClassi?er二元分类 474
20.3建立机器学习pipeline流程 475
20.4使用pipeline进行数据处理与训练 476
20.5使用pipelineModel进行预测 477
20.6评估模型的准确率 478
20.7使用TrainValidation进行训练验证找出最佳模型 479
20.8使用crossValidation交叉验证找出最佳模型 481
20.9使用随机森林RandomForestClassi?er分类器 483
20.10结论 485
第21章SparkMLPipeline机器学习流程多元分类 486
21.1数据准备 487
21.1.1读取文本文件 488
21.1.2创建DataFrame 489
21.1.3转换为double 490
21.2建立机器学习pipeline流程 492
21.3使用dt_pipeline进行数据处理与训练 493
21.4使用pipelineModel进行预测 493
21.5评估模型的准确率 495
21.4使用TrainValidation进行训练验证找出最佳模型 496
21.7结论 498
第22章SparkMLPipeline机器学习流程回归分析 499
22.1数据准备 501
22.1.1在local模式执行IPythonNotebook 501
22.1.2将数据分成train_df与test_df 504
22.2建立机器学习pipeline流程 504
22.3使用dt_pipeline进行数据处理与训练 506
22.4使用pipelineModel进行预测 506
22.5评估模型的准确率 507
22.6使用TrainValidation进行训练验证找出最佳模型 508
22.7使用crossValidation进行交叉验证找出最佳模型 510
22.8使用GBTRegression 511
22.9结论 513
附录A本书范例程序下载与安装说明 514
A.1下载范例程序 515
A.2打开本书IPythonNotebook范例程序 516
A.3打开eclipsePythonProject范例程序 518 [2]

更多资源请咨询课小二

客服QQ

大厂学院重磅上线-大厂学院SVIP十门合集

金职位_Java架构师-技术专家

[完结]大前端2022版

Java工程师高薪训练营【完结】

体系课-大数据工程师2022

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师移动架构师

hot016-大厂学院10套合集

jk005-Go进阶训练营-极客时间（11周）

《Python+Spark 2.0+Hadoop机器学习与大数据实战》

温馨提示：

相关帖子

金职位_Web前端架构师【完结】

金职位_Java架构师-技术专家

[完结]大前端2022版

金职位_Go开发工程师[完结]

mksz469-Go+Python双语言混合开发【完结】

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师移动架构师

关于我们

帮助中心

新手指南

客服QQ

87887023

反馈建议

更多资源请咨询课小二

客服QQ

金职位_Java架构师-技术专家

[完结]大前端2022版

Java工程师高薪训练营【完结】

体系课-大数据工程师2022

Go高级工程师实战营

金职位_Java架构师十项全能

msb002-【马士兵VIP课程】Java高级互联网架

金职位_移动端架构师 移动架构师

hot016-大厂学院10套合集

jk005-Go进阶训练营-极客时间（11周）

《Python+Spark 2.0+Hadoop机器学习与大数据实战》

温馨提示：

相关帖子

关于我们

帮助中心

新手指南

客服QQ

87887023

反馈建议

金职位_移动端架构师移动架构师