大数据平台实时数仓从0到1搭建之 - 10 阶段回顾
2021/10/3 23:16:10
本文主要是介绍大数据平台实时数仓从0到1搭建之 - 10 阶段回顾,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
大数据平台实时数仓从0到1搭建之 - 10 阶段回顾
- 概述
- jpsall 目前所有进程
- 整体架构
概述
截止Flink安装完成,其实一个简单的架构已经可以用了,这里整理下现在集群上安装的各种服务
jpsall 目前所有进程
jpsall,展示出目前三台节点上所有的java进程
[root@server110 opt]# ./jpsall.sh ----------------jps server110 -------------------- 31744 QuorumPeerMain 32420 Jps 32182 Kafka 17387 NameNode 17916 NodeManager 17549 DataNode ----------------jps server111 -------------------- 17265 DataNode 1201 Jps 17540 NodeManager 532 QuorumPeerMain 17383 ResourceManager 18029 JobHistoryServer 975 Kafka ----------------jps server112 -------------------- 26338 QuorumPeerMain 26995 Jps 17207 DataNode 17289 SecondaryNameNode 26765 Kafka 17407 NodeManager
整体架构
server110 | server111 | server112 | |
---|---|---|---|
Flink | JobManager TaskManager | TaskManager | TaskManager |
kafka | broker.id.0 | broker.id.1 | broker.id.2 |
zookeeper | zk.1 | zk.2 | zk.3 |
hive | client | client | client |
mariadb | mysql | ||
HistoryServer | JobHistoryServer | ||
YARN | NodeManager | ResourceManager NodeManager | NodeManager |
HDFS | NameNode DataNode | DataNode | SecondaryNameNode DataNode |
hdfs,做最底层的数据存储
yarn,做资源调度
JobHistoryServer记录job日志
mariadb为hive的资源库
hive作为离线数据存储的主要入口
zk支持kafka
kafka用来暂存实时数据
Flink 做实时计算
按下图的流程看来,还缺少数据采集部分和数据服务层部分
数据采集层:要求多数据源,实时监听数据变化,有待完善
数据服务层:要求快速响应,可操作数据,这部分使用Mysql和Hbase比较合适
数据采集这部分,还希望路过的大佬可以给个思路。
这篇关于大数据平台实时数仓从0到1搭建之 - 10 阶段回顾的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-14使用AWS Lambda和S3打造智能文件整理器 - (动手搭建系列)
- 2024-11-14Netflix简化营收基础设施中的合同管理工具
- 2024-11-142024年必备的6款开源Terraform神器
- 2024-11-14Spin 3.0来啦:全新功能让你的无服务器Wasm应用开发更上一层楼
- 2024-11-14如何高效管理项目?小团队到大企业的多功能项目管理工具推荐
- 2024-11-1333 张高清大图,带你玩转 KubeSphere 4.1.2 部署与扩展组件安装
- 2024-11-11Spark 新作《循序渐进 Spark 大数据应用开发》简介
- 2024-11-11KubeSphere 社区双周报| 2024.10.25-11.07
- 2024-11-11云原生周刊:Istio 1.24.0 正式发布
- 2024-11-10一个故事,为你理清云开发服务的选择思路