站内搜索关键词：rdd，共有215个结果！为之网,www.weizhi.cc

热门标签更多>

Java (39556) python (32336) mysql (18517) int (18371) android (12233) linux (11908) public (10045) javascript (9605) -- (8450) C++ (8056) Redis (7974) 数据库 (7876) string (7726) 算法 (7099) 安装 (6804) js (6730) 文件 (6610) name (6609) jQuery (6507) php (6479) SQL (6385) 源码 (5933) new (5620) system (5620) 函数 (5604) 线程 (5432) print (5290) return (5272) id (5083) spring (4787) vue (4743) 数据 (4565) 前端 (4468) import (4409) root (4321) 学习 (4284) 数组 (4177) nginx (4149) out (4101) c# (4027) 方法 (3966) 字符串 (3937) 对象 (3873) https (3802) 10 (3694) data (3678) println (3678) com (3610) 编程 (3556) select (3516) oracle (3442) 面试 (3415) windows (3408) docker (3341) 内存 (3284) key (3212) ios (3133) 服务器 (3132) 笔记 (3111) list (3105) node (3104) 代码 (3076) 节点 (3059) 查询 (3056) 元素 (2995) void (2835) 变量 (2830) null (2817) include (2816) __ (2807) log (2713) server (2678) var (2625) 命令 (2599) 语句 (2564) html (2534) class (2529) vue.js (2481) 程序员 (2469) 索引 (2466)

搜索结果

查询Tags标签： rdd，共有 215条记录

spark core案例二：清洗过滤

题目描述/*** 用户的行为日志数据清洗过滤* 网站的独立访客数：一个唯一的IP地址就是一个独立访客* 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD* 2、RDD中重复的IP去重* 3、RDD中的累加值*/案例object A2DataAnaly {def main(args:…

2022/8/27 6:24:37 人评论次浏览
启动spark

1.启动spark命令 1. start-dfs.sh 2. start-yarn.sh 3. start-spark-all.sh 4. start-history-server.sh 5. spark-shell --master spark://node1:70772. 创建RDD数据集 1. 从现有的Scala集合创建RDD数据集parallelize(Seq, numSlices):第二个参数不用传递，代表创建的RDD…

2022/8/23 23:24:17 人评论次浏览
Spark_常用算子

Spark_常用算子 sortBy-sortBy: 指定一个字段进行排序，默认是升序, ascending = false：降序 package com.core.day2 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext}object Demo13Sort {def main(args: Array[String]): Unit = {v…

2022/7/13 6:22:34 人评论次浏览
Spark—算子—spark缓存策略

Spark—算子—spark缓存策略转换算子和操作算子转换算子转换算子：将一个RDD转换成另一个RDD，转换算子是懒执行，需要action算子来触发执行操作算子触发任务执行，一个action算子会触发一次任务执行，同时每一个action算子都会触发前面的代码执行 package com.core.d…

2022/7/13 6:22:28 人评论次浏览
Spark快速上手(6)Spark核心编程-RDD行动算子Action

RDD(3) RDD行动算子所谓行动算子，就是触发Job执行的方法 reduce 函数签名 def reduce(f: (T, T) => T): T 函数说明聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据 e.g. code: def main(args: Array[String]): Unit = {val source: RDD[Int] = sc.makeRD…

2022/7/8 14:24:09 人评论次浏览
Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)

@Spark分区器(Partitioner) HashPartitioner（默认的分区器） HashPartitioner分区原理是对于给定的key，计算其hashCode，并除以分区的个数取余，如果余数小于0，则余数+分区的个数，最后返回的值就是这个key所属的分区ID，当key为null值是返回0。源码在org.apache.spar…

2022/7/5 1:20:19 人评论次浏览
Spark快速上手(3)Spark核心编程-RDD转换算子

RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换 e.g.1val…

2022/7/2 14:21:03 人评论次浏览
spark大佬总结

Spark概述 Hadoop小剧场Hadoop1.x版本的问题Hadoop2.x版本Spark小剧场为什么使用函数式编程什么是SparkSpark是基于内存的快速、通用。可扩展的大数据分析引擎Spark内置模块模块分区Spark SQL 结构化数据 | Spark Streaming 实时计算 Spark Core 独立调度器 | Yarn | M…

2022/6/7 23:22:49 人评论次浏览
7.Spark SQL

未交原因：忘记交了1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。spark出现的目的是为了替代Mapreduce，解决Mapreduce计算短板。我们知道最初的计算框架叫 mapreduce，他的缺点是计算速度慢，还有一个就是代码比较麻烦，所以有了 hive；hive 是把类 sql 的语…

2022/6/7 2:20:59 人评论次浏览
6. RDD综合练习：更丰富的操作

集合运算练习union()， intersection()，subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件，签到日期汇总，出勤次数统计三、综合练习：学生课程分数网盘下载sc.txt文件，通过RDD操作实现以下数据分析…

2022/6/5 23:20:55 人评论次浏览
RDD 序列化

问题引入想看一个需求：定义一个用户类，有一个name 属性和toSting方法：class User {var name: String = _override def toString: String = s"User{$name}" }现在要声明两个对象并给name 属性赋值，然后将两个实例放在一个rdd里，进行采集打印：def main(ar…

2022/5/26 23:23:18 人评论次浏览
7. Spark SQL

1. 请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 1.1 出现原因SparkSQL的出现源于shark存在线程安全问题和维护语法补丁问题，所以将SparkSQL拿出独立发展。SparkSQL代码由于摆脱了对Hive的依赖性，SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极…

2022/5/12 2:26:20 人评论次浏览
7. Spark SQL

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。SparkSQL出现的原因hive是shark的前身，shark是sparkSQL的前身，sparkSQL产生的根本原因是其完全脱离了hive的限制，hive是hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序复杂性。同…

2022/5/12 2:25:59 人评论次浏览
7.Spark SQL

------------恢复内容开始------------ 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。Shark提供了类似于Hive的功能，与Hive不同的是，Shark把SQL语句转换成Spark作业，而不是MAPreduce作业。为了实现Hive的兼容，Shark重用了Hive中的Hive SQL解析、逻辑执行…

2022/5/12 2:25:52 人评论次浏览
7.Spark SQL

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。因为关系数据库已经很流行，而且关系数据库在大数据时代已经不能满足要求。首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处…

2022/5/11 2:01:14 人评论次浏览

共215记录«上一页12 3 4...15 下一页»