第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task)
2022/4/2 9:19:32
本文主要是介绍第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
1.说明
/* * RDD 任务切分中间分为:Application、Job、Stage 和 Task Application:初始化一个SparkContext即生成一个Application; new SparkConf().setMaster("local").setAppName("distinctTest") Job:一个Action算子就会生成一个Job 每触发一个Action算子,就会提交一个job Stage:Stage等于宽依赖(ShuffleDependency)的个数加1; 将每个job,根据是否Shuffle 拆分成不同的Stage Task:一个Stage阶段中,最后一个RDD的分区个数就是Task的个数。 note : Application->Job->Stage->Task 每一层都是 1 对 n 的关系。 * * */
2.示例
object TaskTest extends App { val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest") val sc: SparkContext = new SparkContext(sparkconf) private val rdd: RDD[String] = sc.textFile("Spark_319/src/data/*.txt") private val rdd1: RDD[String] = rdd.flatMap(_.split(" ")) private val rdd2: RDD[(String, Iterable[String])] = rdd1.groupBy(e => e) private val rdd3: RDD[(String, Int)] = rdd2.map(tp => (tp._1, tp._2.size)) println("****rdd*********************") println(rdd.toDebugString) println("****rdd1*********************") println(rdd1.toDebugString) println("*****rdd2********************") println(rdd2.toDebugString) println("*****rdd3********************") println(rdd3.toDebugString) rdd3.collect().foreach(println(_)) sc.stop() }
这篇关于第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-15PingCAP 黄东旭参与 CCF 秀湖会议,共探开源教育未来
- 2024-05-13PingCAP 戴涛:构建面向未来的金融核心系统
- 2024-05-09flutter3.x_macos桌面os实战
- 2024-05-09Rust中的并发性:Sync 和 Send Traits
- 2024-05-08使用Ollama和OpenWebUI在CPU上玩转Meta Llama3-8B
- 2024-05-08完工标准(DoD)与验收条件(AC)究竟有什么不同?
- 2024-05-084万 star 的 NocoDB 在 sealos 上一键起,轻松把数据库编程智能表格
- 2024-05-08Mac 版Stable Diffusion WebUI的安装
- 2024-05-08解锁CodeGeeX智能问答中3项独有的隐藏技能
- 2024-05-08RAG算法优化+新增代码仓库支持,CodeGeeX的@repo功能效果提升