搜索结果
查询Tags标签: rdd,共有 215条记录-
spark core案例二:清洗过滤
题目描述/*** 用户的行为日志数据清洗过滤* 网站的独立访客数:一个唯一的IP地址就是一个独立访客* 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD* 2、RDD中重复的IP去重* 3、RDD中的累加值*/案例object A2DataAnaly {def main(args:…
2022/8/27 6:24:37 人评论 次浏览 -
启动spark
1.启动spark命令 1. start-dfs.sh 2. start-yarn.sh 3. start-spark-all.sh 4. start-history-server.sh 5. spark-shell --master spark://node1:70772. 创建RDD数据集 1. 从现有的Scala集合创建RDD数据集parallelize(Seq, numSlices):第二个参数不用传递,代表创建的RDD…
2022/8/23 23:24:17 人评论 次浏览 -
Spark_常用算子
Spark_常用算子 sortBy-sortBy: 指定一个字段进行排序,默认是升序, ascending = false: 降序 package com.core.day2 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext}object Demo13Sort {def main(args: Array[String]): Unit = {v…
2022/7/13 6:22:34 人评论 次浏览 -
Spark—算子—spark缓存策略
Spark—算子—spark缓存策略 转换算子和操作算子转换算子 转换算子:将一个RDD转换成另一个RDD,转换算子是懒执行,需要action算子来触发执行 操作算子 触发任务执行,一个action算子会触发一次任务执行,同时每一个action算子都会触发前面的代码执行 package com.core.d…
2022/7/13 6:22:28 人评论 次浏览 -
Spark快速上手(6)Spark核心编程-RDD行动算子Action
RDD(3) RDD行动算子 所谓行动算子,就是触发Job执行的方法 reduce 函数签名 def reduce(f: (T, T) => T): T 函数说明 聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据 e.g. code: def main(args: Array[String]): Unit = {val source: RDD[Int] = sc.makeRD…
2022/7/8 14:24:09 人评论 次浏览 -
Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)
@Spark分区器(Partitioner) HashPartitioner(默认的分区器) HashPartitioner分区原理是对于给定的key,计算其hashCode,并除以分区的个数取余,如果余数小于0,则余数+分区的个数,最后返回的值就是这个key所属的分区ID,当key为null值是返回0。 源码在org.apache.spar…
2022/7/5 1:20:19 人评论 次浏览 -
Spark快速上手(3)Spark核心编程-RDD转换算子
RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明 将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换 e.g.1val…
2022/7/2 14:21:03 人评论 次浏览 -
spark大佬总结
Spark概述 Hadoop小剧场Hadoop1.x版本的问题Hadoop2.x版本Spark小剧场为什么使用函数式编程什么是SparkSpark是基于内存的快速、通用。可扩展的大数据分析引擎Spark内置模块模块分区Spark SQL 结构化数据 | Spark Streaming 实时计算 Spark Core 独立调度器 | Yarn | M…
2022/6/7 23:22:49 人评论 次浏览 -
7.Spark SQL
未交原因:忘记交了1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。spark出现的目的是为了替代Mapreduce,解决Mapreduce计算短板。我们知道最初的计算框架叫 mapreduce,他的缺点是计算速度慢,还有一个就是代码比较麻烦,所以有了 hive;hive 是把类 sql 的语…
2022/6/7 2:20:59 人评论 次浏览 -
6. RDD综合练习:更丰富的操作
集合运算练习union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计 三、综合练习:学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析…
2022/6/5 23:20:55 人评论 次浏览 -
RDD 序列化
问题引入 想看一个需求:定义一个 用户类,有一个name 属性和toSting方法:class User {var name: String = _override def toString: String = s"User{$name}" }现在要声明两个对象并给name 属性赋值,然后将两个实例放在一个rdd里,进行采集打印:def main(ar…
2022/5/26 23:23:18 人评论 次浏览 -
7. Spark SQL
1. 请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 1.1 出现原因SparkSQL的出现源于shark存在线程安全问题和维护语法补丁问题,所以将SparkSQL拿出独立发展。SparkSQL代码由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极…
2022/5/12 2:26:20 人评论 次浏览 -
7. Spark SQL
1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。SparkSQL出现的原因hive是shark的前身,shark是sparkSQL的前身,sparkSQL产生的根本原因是其完全脱离了hive的限制,hive是hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序复杂性。同…
2022/5/12 2:25:59 人评论 次浏览 -
7.Spark SQL
------------恢复内容开始------------ 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。Shark提供了类似于Hive的功能,与Hive不同的是,Shark把SQL语句转换成Spark作业,而不是MAPreduce作业。为了实现Hive的兼容,Shark重用了Hive中的Hive SQL解析、逻辑执行…
2022/5/12 2:25:52 人评论 次浏览 -
7.Spark SQL
1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处…
2022/5/11 2:01:14 人评论 次浏览