《Hadoop构建数据仓库实践》_王雪迎

[复制链接]
online_admin aixure 发表于 2023-1-24 17:49:24 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
174907n99c1fcv1l3phkc1
售 价: ¥5¥89加入会员,免费下载
库 存:9999
销 量:12
源 址:
卖家服务:  
客 服:QQ(早10点-晚6点)
资源详情
内容介绍[url=]编辑[/url][url=] 播报[/url]
本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。 本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。 [2]

图书目录[url=]编辑[/url][url=] 播报[/url]
目录
第1章数据仓库简介
1.1什么是数据仓库1
1.1.1数据仓库的定义1
1.1.2建立数据仓库的原因3
1.2操作型系统与分析型系统5
1.2.1操作型系统5
1.2.2分析型系统8
1.2.3操作型系统和分析型系统对比9
1.3数据仓库架构10
1.3.1基本架构10
1.3.2主要数据仓库架构12
1.3.3操作数据存储16
1.4抽取-转换-装载17
1.4.1数据抽取17
1.4.2数据转换19
1.4.3数据装载20
1.4.4开发ETL系统的方法21
1.4.5常见ETL工具21
1.5数据仓库需求22
1.5.1基本需求22
1.5.2数据需求23
1.6小结24
第2章数据仓库设计基础
2.1关系数据模型25
2.1.1关系数据模型中的结构25
2.1.2关系完整性28
2.1.3规范化30
2.1.4关系数据模型与数据仓库33
2.2维度数据模型34
2.2.1维度数据模型建模过程35
2.2.2维度规范化36
2.2.3维度数据模型的特点37
2.2.4星型模式38
2.2.5雪花模式40
2.3DataVault模型42
2.3.1DataVault模型简介42
2.3.2DataVault模型的组成部分43
2.3.3DataVault模型的特点44
2.3.4DataVault模型的构建44
2.3.5DataVault模型实例46
2.4数据集市49
2.4.1数据集市的概念50
2.4.2数据集市与数据仓库的区别50
2.4.3数据集市设计50
2.5数据仓库实施步骤51
2.6小结54
第3章Hadoop生态圈与数据仓库
3.1大数据定义55
3.2Hadoop简介56
3.2.1Hadoop的构成57
3.2.2Hadoop的主要特点58
3.2.3Hadoop架构58
3.3Hadoop基本组件59
3.3.1HDFS60
3.3.2MapReduce65
3.3.3YARN72
3.4Hadoop生态圈的其他组件77
3.5Hadoop与数据仓库81
3.5.1关系数据库的可扩展性瓶颈82
3.5.2CAP理论84
3.5.3Hadoop数据仓库工具85
3.6小结88
第4章安装Hadoop
4.1Hadoop主要发行版本89
4.1.1ClouderaDistributionforHadoop(CDH)89
4.1.2HortonworksDataPlatform(HDP)90 [3]
4.1.3MapRHadoop90
4.2安装ApacheHadoop91
4.2.1安装环境91
4.2.2安装前准备92
4.2.3安装配置Hadoop93
4.2.4安装后配置97
4.2.5初始化及运行97
4.3配置HDFSFederation99
4.4离线安装CDH及其所需的服务104
4.4.1CDH安装概述104
4.4.2安装环境106
4.4.3安装配置106
4.4.4ClouderaManager许可证管理114
4.5小结115
第5章Kettle与Hadoop
5.1Kettle概述117
5.2Kettle连接Hadoop119
5.2.1连接HDFS119
5.2.2连接Hive124
5.3导出导入Hadoop集群数据128
5.3.1把数据从HDFS抽取到RDBMS128
5.3.2向Hive表导入数据132
5.4执行Hive的HiveQL语句134
5.5MapReduce转换示例135
5.6Kettle提交Spark作业143
5.6.1安装Spark143
5.6.2配置Kettle向Spark集群提交作业146
5.7小结149
第6章建立数据仓库示例模型
6.1业务场景150
6.2Hive相关配置152
6.2.1选择文件格式152
6.2.2支持行级更新159
6.2.3Hive事务支持的限制164
6.3Hive表分类164
6.4向Hive表装载数据169
6.5建立数据库表174
6.6装载日期维度数据179
6.7小结180
第7章数据抽取
7.1逻辑数据映射182
7.2数据抽取方式185
7.3导出成文本文件191
7.4分布式查询196
7.5使用Sqoop抽取数据200
7.5.1Sqoop简介200
7.5.2CDH5.7.0中的Sqoop203
7.5.3使用Sqoop抽取数据203
7.5.4Sqoop优化207
7.6小结208
第8章数据转换与装载
8.1数据清洗210
8.2Hive简介214
8.2.1Hive的体系结构215
8.2.2Hive的工作流程216
8.2.3Hive服务器218
8.2.4Hive客户端221
8.3初始装载231
8.4定期装载236
8.5Hive优化246
8.6小结254
第9章定期自动执行ETL作业
9.1crontab256
9.2Oozie简介260
9.2.1Oozie的体系结构260
9.2.2CDH5.7.0中的Oozie262
9.3建立定期装载工作流262
9.4建立协调器作业定期自动执行工作流271
9.5Oozie优化275
9.6小结276
第10章维度表技术
10.1增加列278
10.2维度子集285
10.3角色扮演维度292
10.4层次维度298
10.4.1固定深度的层次299
10.4.2递归302 [3]
10.4.3多路径层次310
10.4.4参差不齐的层次312
10.5退化维度313
10.6杂项维度316
10.7维度合并323
10.8分段维度329
10.9小结335
第11章事实表技术
11.1事实表概述336
11.2周期快照337
11.3累积快照343
11.4无事实的事实表349
11.5迟到的事实354
11.6累积度量360
11.7小结366
第12章联机分析处理
12.1联机分析处理简介367
12.1.1概念367
12.1.2分类368
12.1.3性能371
12.2Impala简介371
12.3Hive、SparkSQL、Impala比较377
12.3.1SparkSQL简介377
12.3.2Hive、SparkSQL、Impala比较379
12.3.3Hive、SparkSQL、Impala性能对比382
12.4联机分析处理实例387
12.5ApacheKylin与OLAP399
12.5.1ApacheKylin架构399
12.5.2ApacheKylin安装401
12.6小结407
第13章数据可视化
13.1数据可视化简介408
13.2Hue简介410
13.2.1Hue功能快速预览411
13.2.2配置元数据存储412
13.3Zeppelin简介415
13.3.1Zeppelin架构415
13.3.2Zeppelin安装配置416
13.3.3在Zeppelin中添加MySQL翻译器421
13.4Hue、Zeppelin比较425
13.5数据可视化实例426
13.6小结434 [3]

温馨提示:
1、如果下载地址失效,请尽快反馈给我们,我们尽快修复。点此反馈>>
2、全站资源高清无密,课程百分百高清,完整,原画,包含所有的视频+素材+课件+源码,官方同步体验!每天更新,成为vip后可免费下载本站IT课程。点此办理会员>>
3、有任何问题,请咨询QQ:87887023
4、支持7*24小时自助购买,购买后自动发货,链接永久有效,自动更新
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

专注资源整合与知识分享
客服QQ

87887023

周一至周日9:00-23:00

反馈建议

点此进行反馈 kfs 在线QQ咨询
ftqrcode

扫描二维码关注我们

label_sm_90020

Powered by 优百课栈 X3.4© 2019-2025