ETL体系结构
ETL代表Extract,Transform和Load。在今天的数据仓库世界中,该术语扩展到E-MPAC-TL或Extract,Monitor,Profile,Analyze,Cleanse,Transform和Load。换句话说,ETL专注于数据质量和元数据。
提取
提取的主要目标是尽可能快地从源系统收集数据,并且对这些源系统不太方便。它还指出,应根据情况为源日期/时间戳,数据库日志表,混合选择最适用的提取方法。
转换和加载
转换和加载数据就是要整合数据,最后将组合数据移动到演示区域,最终用户社区可以通过前端工具访问这些区域。在这里,重点应放在ETL工具提供的功能上并最有效地使用它。使用ETL工具是不够的。在中型到大型数据仓库环境中,尽可能标准化数据而不是进行自定义非常重要。ETL将减少不同源的吞吐时间,以便将目标开发活动作为传统ETL工作的主要部分。
监控
监控数据可以验证数据,这些数据在整个ETL过程中移动,并有两个主要目标。首先,应筛选数据。在进行过多检查时,应尽可能平衡输入数据,而不是减慢整个ETL过程。这里可以使用Ralph Kimbal筛选技术中使用的由内而外的方法。此技术可以一致地捕获所有错误,这些错误基于预定义的元数据业务规则集,并通过简单的星型模式实现对它们的报告,从而可以随时查看数据质量的变化。其次,我们应该关注ETL的表现。此元数据信息可以插入到所有维度和事实表中,并且可以称为审计维度。
质量保证
质量保证是可以根据需要定义的不同阶段之间的过程,这些过程可以检查价值的完整性; 我们在不同的ETL阶段之间是否仍有相同数量的记录或特定措施的总数? 应将此信息捕获为元数据。最后,应该在整个ETL过程中预见数据沿袭,包括产生的错误记录。
数据分析
它用于生成有关源的统计信息。数据剖析的目的是了解资源。数据分析将使用分析技术通过分析和验证数据模式和格式以及通过识别和验证数据源中的冗余数据来发现数据的实际内容,结构和质量。必须使用正确的工具,该工具用于自动执行此过程。它提供了大量的数据。
数据分析
要分析配置数据的结果,请使用数据分析。为了分析数据,更容易识别数据质量问题,例如缺少数据,数据不一致,数据无效,约束问题,孤儿等问题,重复。必须正确捕获此评估的结果。数据分析将成为源和数据仓库团队之间的沟通媒介,以解决悬而未决的问题。目标映射的来源高度依赖于源分析的质量。
源分析
在源分析中,不仅要关注源,还要关注周围环境,以获取源文档。源应用程序的未来取决于当前的原始数据问题,相应的数据模型/元数据存储库,以及源所有者接收源模型和业务规则的演练。与源的所有者建立频繁会议以检测可能影响数据仓库和相关ETL过程的更改至关重要。
净化
在本节中,可以修复找到的错误,该错误基于预定义规则集的元数据。在这里,需要区分完全或部分拒绝的记录,并能够手动纠正问题,或者通过纠正不准确的数据字段,调整数据格式等来修复数据。
E-MPAC-TL是一种扩展的ETL概念,它试图平衡需求与系统,工具,元数据,技术问题和约束以及最重要的数据本身的现实。