搜索结果
查询Tags标签: Parquet,共有 9条记录-
Spark SQL 数据源 parquet文件
scala> val employee = sqlparquet.read.json("employee.json") 这里将txt转化为parquet应该也行 employee: org.apache.spark.sql.DataFrame = [_corrupt_record: string, age: string ... 2 more fields]scala> employee.write.parquet("employee.…
2022/6/25 2:19:48 人评论 次浏览 -
用 Python 定义 Schema 并生成 Parquet 文件
原来用 Java 和 Python 实现过 Avro 转换成 Parquet 格式,所以 Schema 都是在 Avro 中定义的。这里要尝试的是如何定义 Parquet 的 Schema, 然后据此填充数据并生成 Parquet 文件。本文将演示两个例子,一个是没有层级的两个字段,另一个是含于嵌套级别的字段,将要使用到…
2021/9/28 14:10:45 人评论 次浏览 -
用 Python 定义 Schema 并生成 Parquet 文件
原来用 Java 和 Python 实现过 Avro 转换成 Parquet 格式,所以 Schema 都是在 Avro 中定义的。这里要尝试的是如何定义 Parquet 的 Schema, 然后据此填充数据并生成 Parquet 文件。本文将演示两个例子,一个是没有层级的两个字段,另一个是含于嵌套级别的字段,将要使用到…
2021/9/28 14:10:45 人评论 次浏览 -
一篇文章搞懂 Apache Kylin 的技术架构
前言 本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文Apache Kylin 系统可以分为在线查询和离线构建两部分,技术架构如图所…
2021/8/24 23:38:26 人评论 次浏览 -
一篇文章搞懂 Apache Kylin 的技术架构
前言 本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系正文Apache Kylin 系统可以分为在线查询和离线构建两部分,技术架构如图所…
2021/8/24 23:38:26 人评论 次浏览 -
Hadoop支持的文件格式之Parquet
文章目录 0x00 文章内容 0x01 行存储与列存储 1. Avro与Parquet 0x02 编码实现Parquet格式的读写 1. 编码实现读写Parquet文件 2. 查看读写Parquet文件结果 3. 编码实现读写Parquet文件(HDFS) 4. 查看读写Parquet文件(HDFS)结果0x03 彩蛋 0xFF 总结0x00 文章内容 行存…
2021/6/10 18:26:42 人评论 次浏览 -
Hive文件格式(表stored as 的五种类型)
hive文件存储格式包括以下几类:1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE(0.11以后出现) 5、PARQUET 1、其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;SEQUENCEFILE,RCFILE,ORCFILE,PARQUET格式的…
2021/6/1 10:25:23 人评论 次浏览 -
SparkSQL的创建方式
文章目录hive和sparksqlDataFrame基本环境构建读取json格式使用原生的API注册临时表直接写sql非 json 格式的 RDD 创建 DataFrame读取 parquet 文件创建 DataFrame读取 JDBC 中的数据创建 DataFrame(MySql 为例)scala版本scala版本通过反射的方式将非 json 格式的 RDD 转换…
2021/5/31 19:24:05 人评论 次浏览 -
Spark的Parquet向量化读取原理
Spark的Parquet向量化读取原理 原文链接:https://www.dazhuanlan.com/2020/01/06/5e12b00b2bcf9/ 测试过程中,发现一个spark的一个参数设置可以带来5倍以上的性能差异 参数: spark.sql.parquet.enableVectorizedReader 一条SQL的运行结果对比:参数设置为true运行时间2…
2021/5/17 18:57:53 人评论 次浏览