06 Spark SQL 及其DataFrame的基本操作
2021/5/10 2:26:15
本文主要是介绍06 Spark SQL 及其DataFrame的基本操作,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
1.Spark SQL出现的 原因是什么?
答:(1)Shark执行计划优化完全依赖于Hive,不便于添加新的优化策略。
(2)Spark是线程级并行,MapReduce是进程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支。
(3)Shark的实现继承了大量的Hive代码,因而给优化和维护带来了大量的麻烦,特别是基于MapReduce设计的部分,成为整个项目的瓶颈。
2.用spark.read 创建DataFrame
答:(1)代码
(2)运行结果
3.观察从不同类型文件创建DataFrame有什么异同?
答:(1)通过txt文本文件创建的DataFrame是一个键值对,键是“value”,值是整个文本文件的内容,类型为string类型;
(2)通过json文件创建的DataFrame可以是若干个键值对,键值对的键值类型与json文件内容一一对应。
4.观察Spark的DataFrame与Python pandas的DataFrame有什么异同?
答:(1)代码
(2)运行结果
这篇关于06 Spark SQL 及其DataFrame的基本操作的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-23Springboot应用的多环境打包入门
- 2024-11-23Springboot应用的生产发布入门教程
- 2024-11-23Python编程入门指南
- 2024-11-23Java创业入门:从零开始的编程之旅
- 2024-11-23Java创业入门:新手必读的Java编程与创业指南
- 2024-11-23Java对接阿里云智能语音服务入门详解
- 2024-11-23Java对接阿里云智能语音服务入门教程
- 2024-11-23JAVA对接阿里云智能语音服务入门教程
- 2024-11-23Java副业入门:初学者的简单教程
- 2024-11-23JAVA副业入门:初学者的实战指南