本章将从故事说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的,还会介绍大数据的特性,以及大数据对我们带来的技术变革,大数据处理过程中涉及到的技术以及大数据典型应用。
本章节将带领大家认识Hadoop以及Hadoop生态系统、Hadoop的发展史、Hadoop的优势、Hadoop的三个核心组件、Hadoop发行版的选择,为后续深入讲解Hadoop打下坚实的基础。
本章将从Hadoop的设计目标、架构及文件系统命令空间出发,快速搭建单节点伪分布式HDFS的实验环境,通过讲解使用hdfs shell以及Java API的方式操作HDFS文件系统,详细分析HDFS文件的读写流程,并通过HDFS API来实现词频统计案例,使得大家对Hadoop分布式文件系统HDFS有深刻的认识以及实战。 ...
本章将从架构、编程模型等角度带大家认识Hadoop的分布式计算框架MapReduce,掌握MapReduce各个核心组件编程,并通过两个案例让大家深入掌握MapReduce编程的方方面面。
本章将从YARN的产生背景、YARN的架构及执行流程的角度带大家认知Hadoop的资源调度框架YARN,快速搭建单节点伪分布式YARN的实验环境并掌握如何提交MapReduce作业提交到YARN上运行。
本章将通过电商用户行为日志分析的项目实战,来将前面几个章节讲解的知识点串联起来,综合使用Hadoop的技术进行离线统计分析。
本章将从Hive的产生背景、体系架构、Hive部署、DDL以及DML来掌握Hive使用的方方面面。
本章将使用Hive对电商用户行为日志分析进行重新实现,让大家对MapReduce编程和Hive实现的方式进行对比,体会Hive在生产上使用的便捷性。
本章将带领大家搭建一个三个节点的分布式Hadoop集群环境,让大家对于Hadoop集群的安装有更深入的认识,并将项目实战案例运行在分布式集群环境中。
本章将从SQL中的join入手,详细剖析如何在MapReduce中实现JOIN,这是面试中经常被考察到的点,考察你的MapReduce功底以及优化策略。
本次分享中,主要针对剖析小文件的产生、对集群带来的影响以及解决方案相关内容进行了讲解。
本次分享主题主要剖析在生产上常用的Hadoop特性,如:小文件、集群间数据拷贝、回收站等。
本章中,将带领大家学习里程碑版本hadoop 3.x中带来了哪些新特性;掌握云主机的选型以及如何基于云主机进行Hadoop3.x的部署及使用;同时将升级本课程内容到Hadoop3.2.1。
本章中,将向大家介绍,压缩能为我们带来哪些好处,压缩格式以及压缩场景,压缩和解压缩编程实战,Hadoop结合压缩的使用。
欢迎光临 优百课栈 (https://www.ubkz.com/) | Powered by Discuz! X3.4 |