Python3实战Spark大数据分析及调度 学习 资源
2021/7/9 11:06:28
本文主要是介绍Python3实战Spark大数据分析及调度 学习 资源,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
Python3实战Spark大数据分析及调度 学习资源
一、实例分析
1.1 数据 student.txt
1.2 代码 ![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=20191015172251705.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=20191015172316462.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw,size_16,color_FFFFFF,t_70)
![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=20191015172342385.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw==,size_16,color_FFFFFF,t_70)
二、代码解析
2.1函数解析
2.1.1 collect()
RDD的特性
在进行基本RDD“转换”运算时不会立即执行,结果不会显示在显示屏中,collect()是一个“动作”运算,会立刻执行,显示结果。
2.1.2 reduce()
说明
reduce()函数会对参数序列中的元素进行累积。
语法
reduce(function, iterable[, initializer])
参数
function – 函数,有两个参数
iterable – 可迭代对象
initializer – 可选,初始参数
实例
说明:Python3的内建函数移除了reduce函数,reduce函数放在functools模块
![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=20191015172503652.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw==,size_16,color_FFFFFF,t_70)
2.1.3 type()
语法
class type(name, bases, dict)
参数
name – 类的名称。
bases – 基类的元组。
dict – 字典,类内定义的命名空间变量。
返回值
一个参数返回对象类型, 三个参数,返回新的类型对象。
实例
![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=20191015172525296.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw==,size_16,color_FFFFFF,t_70)
三、问题分析
解析
1、检查拼写是否有误
2、检查缩进是否合规
3、检查()是否一一配对
四、实例 小练
4.1 数据 user_small
![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=20191015172647813.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw,size_16,color_FFFFFF,t_70)
4.2 用户上网记录统计(一行为一条记录).(用户:第3列)
![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=20191015172708177.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw,size_16,color_FFFFFF,t_70)
4.2用户流量统计。分别统计上行流量及下行流量并将结果各列以空格键隔开输出到文件。(用户:第3列;上行流量:第25列;下行流量:第26列)
![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=20191015172726359.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw,size_16,color_FFFFFF,t_70)
4.3 统计用户总流量
![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=20191015172748893.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw,size_16,color_FFFFFF,t_70)
4.4、微信APP流量统计。(微信APP特征MicroMessenger,位于第20列,统计对应的下行流量值——第26列的数值。)
![在这里插入图片描述](https://www.www.zyiz.net/i/ll/?i=2019101517281011.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NkYWZoa2phcw==,size_16,color_FFFFFF,t_70)
这篇关于Python3实战Spark大数据分析及调度 学习 资源的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-10-04Python外包有哪些常见的主要库-icode9专业技术文章分享
- 2024-10-02基于深度学习的钢铁缺陷检测系统(yolov8、注意力机制、PyQt5界面、Python)
- 2024-10-01怎么用python搭建一个系统-icode9专业技术文章分享
- 2024-09-30Python基础入门教程
- 2024-09-30获取参数学习:Python中的基础教程
- 2024-09-30Python编程基础详解
- 2024-09-29点击加载学习:Python编程基础教程
- 2024-09-29数据科学五大Python前端库:第二部分
- 2024-09-27使用python 将ETH账户的资产打散
- 2024-09-26Python编程基础