当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?
2022/10/3 5:16:47
本文主要是介绍当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
视频回放:
Taier 开源项目地址: 丨喜欢我们的项目给我们点个__ STAR!STAR!!STAR!!!(重要的事情说三遍)__
技术交流钉钉 qun:30537511
本期我们带大家回顾一下摘月同学的直播分享《Taier数据开发介绍》
之前三期内容,我们为大家分享了Taier入门、控制台以及Web前端架构的介绍。本次分享我们将从Taier的数据开发功能,到任务运行、功能可扩展点以及未来规划为大家进行讲解。
一、数据开发功能介绍
Taier 是袋鼠云开源项目之一,是一个分布式可视化的DAG任务调度系统,旨在降低ETL开发成本、提高大数据平台稳定性,Taier的数据开发功能主要分为以下三种:
1、资源管理
资源管理通常使用在UDF等自定义函数的场景中,也可以在任务开发中使用。在Taier中,对于函数引用,主要用在Spark、Flink自定义函数中,而在任务引用中,则主要用于Flink任务。
2、函数管理
自定义函数处理流程如下图所示:
函数管理在Taier中的具体实现主要包括以下两个方面:
- 基于calcite完成不同数据源SQL自定义函数解析
- 使用SQL运行前创建临时函数替代创建永久函数,使函数使用更加灵活
3、任务管理
Taier现支持任务:Flink SQL、实时采集、数据同步(ChunJun)、Spark SQL、HiveSQL
Taier中有两块区分,分别为集群和数据开发,如果想在Taier中跑一个任务,需要先在集群中进行配置,具体组件与任务关系如下图:
二、Taier任务运行讲解
了解完Taier数据开发的功能介绍后,我们来为大家分享Taier的任务运行逻辑。
1、Spark Sql、Hive Sql临时运行流程
Spark Sql、Hive Sql 临时运行流程主要分为任务编写、SQL处理、SQL执行三步,以下图为SparkSql执行流程:
2、Spark Sql 、Hive Sql 运行依赖
Spark Sql 、Hive Sql 运行依赖主要包括以下两类:
● Sql解析(基于calcite进行)
· Sql Type 解析
· 函数、表名解析
● 数据源插件
· 统一不同数据源操作入口
· 封装数据源对应的数据操作方法
三、功能可扩展点介绍
当前而言,Taier中的功能还较为简单,只开放了主要流程的功能,在开源中还有许多可扩展点,接下来为大家介绍Taier的功能可扩展点。
1、功能扩展——数据权限控制
在sparkThrift、hiveserver中去进行create、insert into、alter、select时,不同的公司、不同的人有不一样的数据权限控制,面对这种情况,可以利用Apache Ranger大数据权限管理框架进行权限配置。
具体地址为:
github:
2、功能扩展——数据血源追踪
通过SQL解析可以得到表和表之间的关系,以及不同表中字段之间的血源关系。
● 实现工具:calcite
● 可操作任务:SparkSql、HiveSql、数据同步(ChunJun)
用sql举例:
create table zy_0710_1 (id int, name string);
create table zy_0710_2 as select id , name from zy_0710_1;
create table zy_0710_3 as select id , name from zy_0710_2;
四、Taier1.2尝鲜
最后为大家介绍未来不久将发布的Taier1.2新版本尝鲜:
●集群管理
控制台ui升级
● 数据开发
- 集群租户绑定流程简化
- 任务开发代码层面优化
- 任务新增schema配置
● 新增功能
- FlinkSql支持jar包方式
- 新增工作流任务
- 自定义扩展开发任务
这篇关于当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-14使用AWS Lambda和S3打造智能文件整理器 - (动手搭建系列)
- 2024-11-14Netflix简化营收基础设施中的合同管理工具
- 2024-11-142024年必备的6款开源Terraform神器
- 2024-11-14Spin 3.0来啦:全新功能让你的无服务器Wasm应用开发更上一层楼
- 2024-11-14如何高效管理项目?小团队到大企业的多功能项目管理工具推荐
- 2024-11-1333 张高清大图,带你玩转 KubeSphere 4.1.2 部署与扩展组件安装
- 2024-11-11Spark 新作《循序渐进 Spark 大数据应用开发》简介
- 2024-11-11KubeSphere 社区双周报| 2024.10.25-11.07
- 2024-11-11云原生周刊:Istio 1.24.0 正式发布
- 2024-11-10一个故事,为你理清云开发服务的选择思路