Hadoop配置信息处理(源码解析)
2021/9/5 22:08:26
本文主要是介绍Hadoop配置信息处理(源码解析),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
一、配置文件简介
配置文件是一个系统灵活不可缺少的一部分
1.1windows配置文件
- 1
windows系统广泛使用一种特殊化ASCII文件(以“ini”为文件扩展命)作为它的主要配置文件标准。以下为INI文件片段。
应用程序可以拥有自己的配置文件,来存储应用的设置信息。INI文件将配置信息分为一部分一部分“节”,上图[info]就是节标题。
每一节就是对各个项进行赋值。
ro
1. 2 Java配置文件
JDK提供了java.util.Properties类,他继承于Hashtable,由于它继承Hashtable它只支持键-值类型,并没有INI文件的“节”标题。
java.util.Properties用于处理属性列表主要方法如下
//在属性列表中搜索属性并提供默认值 public String getProperty(String key,String defautValue) //用于更新属性列表更新属性值 public synchronized object setProperty(String key,String value )
Properties中的属性通过load()方法加载,从输入流中读取键-值对,store()方法将Properties表中的属性列表写入输出流。
Propertice也可用XML格式保存
二、Hadoop Configuration详解
他并没有使用java.util.Properties管理配置文件,也没有使用Apach Jakarta Commons Configuration管理配置文件,而是使用自己独有的org.apache.hadoop.conf.Configuration处理配置信息。
2. 1Hadoop配置文件格式
采用XML格式,以下为例子
<property> <name>fs.defaultFS</name> <value>hdfs://hadp01:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/root/apps/hadoop-2.9.2/tmp</value> </property>
hadoop配置文件根元素configuration,一般只包含子元素property,每个property就是一个配置项。每个配置项一般包含name ,value,以及对他的描述describe,final表示固定不变
合并多个配置文件
Configuration conf= new Configuration() ; conf.addResource("core -default.xml" ) ; conf.addResouce("core-site.xml");
属性扩展
如配置项dfs.name.dir值是${hadoop.tmp.dir}/dfs/name
如hadoop.tmp.dir的值是/data
那么扩展后原配置项的值就为/data/dfs/name
使用Configuration类的一般步骤
1.构造Configuration对象,并通过addResouce()方法加载需要的资源,
2.用get和set方法访问配置项,资源会第一次使用的时候自动加载到配置项。
2.2Configuration的成员变量
org.apache.hadoop.conf.configuration类图如下
如图可以看出Configuration有七个非静态成员变量
1.布尔变量quietmode,设置加载配置的模式,如为ture则不输出日志信息。
2.数组resource:保存了所有通过addResource()方法添加到 Configuration对象的资源
Configurationg.addResouce()有四种形式
- 一个输入流
- Hadoop文件路径org.apache,hadoop.fs.Path形式的资源
- URI
- core-default.xml形式
3.布尔变量loadDefaults:是否加载默认资源,这些默认资源加载在defaultResource中,defaultResouce是个静态成员变量,通过方法addDefaultrResource()可以添加。在hdfs中hdfs-default.xml和hdfs-site.xml作为默认资源
456.properties,overlay,finalParameters都是和配置项相关的成员变量
hadoop解析后的键-值对都存放在properties,finalParameters存放已经被声明为final的键-值对,overlay记录通过方法设置的键-值对,他是应用设置的,而不是资源解析到的。
7.classLoader:他是一个累加器变量,可加载指定类或相关资源,上面提到的addResource()可以通过字符串的方式加载CLASSPATH资源,他其实是通过Configuration中的getResource()将字符串转换为URL资源
public URL getResouce(String name){ return classLoder.getResource(name) }
2.3资源加载
资源通过对象的addResource()或者类的静态addDefaultResource()方法添加到Configuration对象中。添加的对象并不会立即加载,而通过reloadConfiguration()清空properties和finalParameters。
addResource()清空如下
public void addResouce(String name){ addResourceObject(name); } private synchronized void addResourceObject(Object resouce){ resources.add(resource); reloadConfiguration(); } public synchronized reloadConfiguration(){ properties = null; finalParameter.clear(); }
静态方法addDefaultResoure()通过类的静态成员REGIATRY作为媒介清空Configuration对象。
REGIASTRY记录了系统中所有的Configuration对象。
所有,addDefaultResource()调用时遍历REGIASTRY中的元素并在元素上调用reloadConfiguration(),则触发资源的重加载。
public static synchronized void addDefaultResource(String name){ if(!defaultResource.contain(name)){ defaultResource.add(name) for(Configuration conf:REGIASTRY.keySet()){ if(conf.loadDeafaults){ conf.reloadConfiguration();//出发资源的重加载 } } } }
理解了资源加载的清空,现在了解一下加载;
成员变量properties中的数据直到需要才会被加载进来,在getProps()方法中,如果发现properties为空,则出发loadResources()方法加载配置资源,采用了延迟加载的设计模式,真正需要配置数据时才开始分析配置文件
private synchronized Properties getProps(){ if(Properties == null){ properties = new Properties(); loadResoures(properties,resources,quietmode); ...... } }
再来了解一下XML
,
hadoop配置文件都是XML形式,JAXP(java api for XML processing)是一种稳定的可靠的XML处理的API,支持SAX(simple api for XML)和DOM(Document Object Module)两种处理XML文件的方式。
SAX是流式、事件驱动的XML处理方式,编写较复杂,适合较大XML文件
DOM:先将XML文档一次性装入内存,然后根据文档中定义的元素和属性创建一个“树形结构”也是一个文档模型,将文档对象化,文档中每个节点对应模型中的一个对象;然后使用对象提供的编程接口访问XML文档来访问XML。hadoop配置文件都比较小,所以使用DOM。
首先分析DOM加载部分的代码:
private void loadResource(Properties properties,Object name,Boolean quiet){ try{ //得到用于创建DOM解析器的工厂 DocumentBuilderFactory docBuilderFactory= DocumentBuilderFactory.newInstance(); //忽略XML中的注释 docBuilderFactory.setIgnoringComments(ture); //提供对XML名称空间的支持 docBuilderFactory.setNamespaceAware(ture); try { //设置XInclude处理状态为ture,即允许XIcloude机制 docBuilderFactory.setXIncludeAware(true); }catch(UnsupportedOperationException e){ ...... } //获取解析XML的DocumentBuilder对象 DocumentBuilder builder = docBuilderFactory.newDocumentBuilder(); Document doc = null; Element root = null; //根据不同的资源,做预处理并调用相应形式的DocumentBuilder.parse if(name instaneof URL) { doc = builder.parse(url.toString()); }else if(...) ....... } }
一般的JAXP处理从工厂开始,通过调用DBF的newInstance()方法获得创建DOM解析器的工厂。之后对这个新创建的工厂对象进行一些设置,才能进行这个工厂得到解析器对象builder。
针对新创建的工厂对象docBuilderFactory进行的主要设置包括:
-
忽略文档XML文档注释
-
支持XMl空间
-
支持XML的包含机制
XInclude机制可把一个配置文件分成多个可管理的快,让后将多个较小的文档组成一个大型文档,即一个配置文件可将其他配置文件包含进行一并处理。
该机制把conf4performance.xml嵌入到当前配置文件,该方法更利用对配置文件进行模块化管理。对新工厂设置完毕后,通过该工厂获得解析器对象,用于各种输入源解析XML,在loadResource()根据Configuration支持的四种资源分别进行处理,但最终都调用DocumentBuilder.parse()函数,返回一个DOM解析结果。
成员函数loadresource()第二部分代码就是根据DOM解析结果设置Configuration的成员变量properties和finalParameters
在确认configuration是根节点之后,获取根节点 的所有子节点并对所有子节点进行处理,如子节点式configuration,则递归调用loadResource()
如子节点式property,成功获取name,value,final时根据情况设置成员变量properties和finalParameters。代码如下:
if(root==null){ root = doc.getDocumentElement(); } //根节点应该是configuration if(!"configuration".equals(root.getTagname())) LOG.fatal("bad conf file:top-level element not<configuration>"); //获取根节点的所有子节点 NodeList props = root.getChildNodes(); for(int i=0;i<props.getLength();i++) Node propNode = props.item(i); if(!(propNode instanceof Element)) continue;//如果子节点不是element。忽略 Element prop=(Element)propNode; if("configuration".equals(prop.getTagName())){//子节点时configuration递归调用loadResource loadResoure(properties,prop,quiet); continue; } //子节点是properties if(!"properties".equals(prop.getTagName())) LOG.ware(...) NodeList fields = prop.getChildNodes(); String attr = null; String value = null; boolean finalParameter = false; //查找name,value,和final的值 for(int j=0;j<fields.getLength();j++){ Node fieldNode = fields.item(j); if(!(fieldNode instanceof Element)) continue; Element field = (Element)fieldNode; if("name".equals(field.getTagName())&& field.hasChildNodes()) attr = ((Text)field.getFirstChild()).getData().trim(); if("value".equals(field.getTagName())&& field.hasChildNodes()) value= ((Text)field.getFirstChild()).getData(); if("final".equals(field.getTagName())&& field.hasChildNodes()) finalParameter="ture".equals( ((Text)field.getFirstChild()).getData()); } ......
2.4使用get* 和set*访问/设置配置项
- get*
get*一共有21种方法,他们用于在Configuration对象中获取相应的配置信息。
最重要的是get()方法,它通过配置项的键获取对应的值。如果建不在则返回默认值defaultValue。其他的方法都会依赖于Configuration.get(),并在get()的基础上做进一步的理解。
Configuration.get()会自动调用configuration的私有方法substituteVars(),该方法可完成配置的属性扩展,属性扩展指配置项中的变量包含${key}会自动替换成以key为键的值,substituteVars()工作依赖正则表达式。
2.set*
这些方法对类型转换等处理后,最终都调用了Configuration.set()
set()只是简单的调用了成员变量properties和overlay的setproperty()方法,保存传入的键-值对。
2.5configurable接口
如果一个类实现了Configurable接口,可以通过这个类传入一个Configuration实例,提供对象工作的一些配置信息。
例如:RegexFilter对象工作时需要一个正则表达式,用于过滤读取到的记录,由于它的父类实现了configurable接口,Regex可以在在它的setConf()方法中使用Configuration.get()方法获取以字符串传入的正则表达式,并初始化成员变量p。代码如下:
public void setConf(Configuration Conf){ //在Conf中获取键为FILTER_REGEX的配置项 String regax = Conf.get(FILTER_REGEX); if(regex == null){ throw new RuntimeException(FILTER_REGEX + "not set"); this.p = Pattern.compile(regex); this.conf = conf; } }
setConf()应在对象创建 后应该立即调用,为简化创建调用两个步骤org.apache.hadoop.util.ReflectionUtils提供静态方法newInstance()
public static <T> T newInstance(Class<T>theClass,Configuration Conf)
它利用java反射机制,根据对象类型信息,创建一个相应类型的对象,让后调用ReflectiongUtils另一个静态方法setConf()配置对象,在此方法中,如果对象实现了Configuratable接口,那么对象的setConf()方法会被调用,并根据Configuration类的实例Conf进一步初始化对象。
public static void setConf(Object theObject,Configuration Conf){ if(Conf != null){ //传入的对象实现了Configurable接口 if(theObject instanceof Configurable){ //调用对象的setConf方法,传入Configuration对象 ((Configurable)theObject).setConf(conf); } setJobConf(theObject,conf); } }
总结
作为hadoop common的第一个组件org.apache.hadoop.conf.Configution在各个子项目中发挥着重要的作用。
这篇关于Hadoop配置信息处理(源码解析)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2023-05-13Windows下hadoop环境搭建之NameNode启动报错
- 2023-04-14hadoop伪分布式集群的安装(不是单机版)
- 2022-12-05Hadoop生态系统—数据仓库Hive的安装
- 2022-11-02Win10搭建Hadoop环境
- 2022-10-19Hadoop生态系统(数据仓库Hive的安装)
- 2022-10-03Hadoop、storm和Spark Streaming简单介绍
- 2022-10-03胖虎的Hadoop笔记——Hadoop的伪分布式部署
- 2022-09-11Ubuntu搭建全分布式Hadoop
- 2022-09-11Ubuntu搭建全分布式Hadoop
- 2022-09-09Ubuntu下安装伪分布式HADOOP遇到的一些问题