[Spark] gp006-令人费解的Spark任务流-咕泡学院

[复制链接]
online_admin aixure 发表于 2021-3-7 18:09:12 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
112606xmvvbul253lv3lgt
售 价: ¥19¥977加入会员,免费下载
库 存:9999
销 量:90
源 址:
卖家服务: 正品保证 
客 服:QQ(早10点-晚6点)
资源详情

【课程介绍】
1、        build operator DAG:主要是RDD转化成为DAG。
2、        split graph into stages oftasks:主要完成了finalStage的创建和Stage的划分。做好stage和task的准备工作,提交taskSet。
3、        launch tasks via clustermanager:使用集群管理者clustermanager分配资源和任务,任务失败,有一个自己的重构和容错机制
4、        executor tasks:执行任务,把中间结果和最终结果存储到存储体系中。
RDD:是分布式的弹性的数据集。
为什么要用RDD。
1、        RDD是一个容错的并行的数据结构,可以控制将数据存储到内存或者磁盘,能够获取数据的分区数据。RDD里边提供了scala的函数操作。例如:map、flatMap、filter、reduce。这些操作很多都是transformation。此外还有join、groupBy、groupByKey、reduceByKey。这些都是可以作为spark的RDD的数据处理。
2、        依赖的划分:一个RDD可以包含一个或者多个分区,每个分区的数据其实是数据集的一个小片段。创建DAG的时候会把RDD使用依赖关系进行串联。每个RDD都有自己的依赖。
3、        上游的RDD计算过程中允许多个节点并发的执行。分区数量决定了并发任务的多少。
4、        容错:传统的数据库容错,使用的是日志的方式容灾,数据的恢复都是依赖于重新执行日志中的SQL,hadoop使用的备份机制。RDD本身是一个不可变的数据集,当某个Worker几点计算任务失败,可以是用DAG重新调度计算。但是流式计算中必须存储日志和检查点,进行数据的恢复。


gp006-令人费解的Spark任务流-咕泡学院



温馨提示:
1、如果下载地址失效,请尽快反馈给我们,我们尽快修复。点此反馈>>
2、全站资源高清无密,课程百分百高清,完整,原画,包含所有的视频+素材+课件+源码,官方同步体验!每天更新,成为vip后可免费下载本站IT课程。点此办理会员>>
3、有任何问题,请咨询QQ:87887023
4、支持7*24小时自助购买,购买后自动发货,链接永久有效,自动更新
回复

使用道具 举报

精彩评论1

plugin
online_1_1 carson9246 发表于 2022-3-7 22:12:08 | 显示全部楼层
666666666666666666
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

专注资源整合与知识分享
客服QQ

87887023

周一至周日9:00-23:00

反馈建议

点此进行反馈 kfs 在线QQ咨询
ftqrcode

扫描二维码关注我们

label_sm_90020

Powered by 优百课栈 X3.4© 2019-2025