05 RDD编程
2021/4/18 22:25:20
本文主要是介绍05 RDD编程,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
05 RDD编程
一、词频统计
1.读文本文件生成RDD lines
2.将一行一行的文本分割成单词 words flatmap()
3.全部转换为小写 lower()
4.去掉长度小于3的单词 filter()
5.去掉停用词
6.转换成键值对 map()
7.统计词频 reduceByKey()
8.按字母顺序排序 sortBy(f)
9.按词频排序 sortByKey()
二、学生课程案例分析
1.总共有多少学生?map(), distinct(), count()
2.开设了多少门课程?
3.每个学生选修了多少门课?map(), countByKey()
4.每门课程有多少个学生选?map(), countByValue()
5.Henry选修了几门课?每门课多少分?filter(), map() RDD
6.Henry选修了几门课?每门课多少分?map(),lookup() list
7.Henry的成绩按分数大小排序。filter(), map(), sortBy()
8.Henry的平均分。map(),lookup(),mean()
这篇关于05 RDD编程的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-06-26结对编程到底难不难?答案在这里
- 2024-06-19《2023版Java工程师》课程升级公告
- 2024-06-15matplotlib作图不显示3D图,怎么办?
- 2024-06-1503-Loki 日志监控
- 2024-06-1504-让LLM理解知识 -Prompt
- 2024-06-05做软件测试需要懂代码吗?
- 2024-06-0514-ShardingSphere的分布式主键实现
- 2024-06-03为什么以及如何要进行架构设计权衡?
- 2024-05-31全网首发第二弹!软考2024年5月《软件设计师》真题+解析+答案!(11-20题)
- 2024-05-31全网首发!软考2024年5月《软件设计师》真题+解析+答案!(21-30题)