大数据roadmap
2021/9/23 6:10:41
本文主要是介绍大数据roadmap,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
该roadmap是对自身大数据知识的一个概括和梳理,之后会写一些博客对这些知识点进行展开。
- 大数据基础
- Hadoop
- HDFS
- MR
- Yarn
- Spark
- spark 的原理
- spark 常用算子。
- spark 参数调优。
- Flink
流计算 - Hive/Hbase/Flume
大数据中还有其他的组件,比如 作为数仓处理的 Hive,列数据库 HBASE,负责数据 ETL 的 Flume, 负责调度的 OOZIE 等。
- Hadoop
- 大数据开发
大数据通用开发流程, 以常用的 lamdba 为例。- 埋点。主要包含APP 和 H5 上的用户行为埋点与收集
- 数据抽取。如何将埋点数据和业务数据抽取到 大数据平台。
- 数据计算。常用的 MR, Spark,流式可以用 Spark Streaming, Flink
- 数据存储与建模。 数据可以保存在 HDFS,CK等。 建模可以是常用的维度建模, 可以按照 ODS、DWD、DWS、ADS进行分层。
- 数据展示与使用。 包括 BI 报表,OneService
- 大数据管理
大数据管理部分包含,Job 管理,元数据管理,数据质量,数据指标,IDE平台建设等, 主要是通过这些平台的建设,掌握整个数据平台的运行情况, 让数据更加准确,易用,让平台运行更加健康。- 平台管理,比如小文件管理,元数据管理,安全管理。
- 数据管理,比如数据质量,数据血缘,数据指标
- 平台自身建设,比如 Job,IDE,BI 报表系统等
- 大数据应用
大数据平台除了产出报表,还可以有下面这些应用- 用户画像,DMP 平台等。用户画像可以在商品召回,或者重排时使用,DMP 平台可以在运营精准营销时起到关键作用。
- 搜索,推荐,广告。现在大多数应用都有搜索,猜你喜欢等模块,这些模块的背后混合了机器学习,用户画像等技术。
- 数据挖掘。比如频繁项挖掘,落地到场景比如买了还买。
- 机器学习。比如 CTR 预估,情感分析,图像识别。
这篇关于大数据roadmap的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-14使用AWS Lambda和S3打造智能文件整理器 - (动手搭建系列)
- 2024-11-14Netflix简化营收基础设施中的合同管理工具
- 2024-11-142024年必备的6款开源Terraform神器
- 2024-11-14Spin 3.0来啦:全新功能让你的无服务器Wasm应用开发更上一层楼
- 2024-11-14如何高效管理项目?小团队到大企业的多功能项目管理工具推荐
- 2024-11-1333 张高清大图,带你玩转 KubeSphere 4.1.2 部署与扩展组件安装
- 2024-11-11Spark 新作《循序渐进 Spark 大数据应用开发》简介
- 2024-11-11KubeSphere 社区双周报| 2024.10.25-11.07
- 2024-11-11云原生周刊:Istio 1.24.0 正式发布
- 2024-11-10一个故事,为你理清云开发服务的选择思路