HDFS写数据流程

2021/10/30 23:42:02

本文主要是介绍HDFS写数据流程,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

文字解释

大部分的HDFS程序对文件操作采用的是“一次写多次读取”的模式。

写数据时的过程;

1.客户端通过调用,分布式文件系统对象中的Create创建一个文件。DistributedFileSystem会通过RPC调用的名称节点中的文件系统命名空间创建一个新文件。

2.名称节点通过多种验证,确保请求客户端y拥有创建文件的权限,新的文件不存在文件系统中。当所有的验证通过时,名称节点就会创建一个新文件的记录。如果创建失败,则分布式文件系统返回一个文件系统数据输出流给客户端用来写数据。这时FSDataOutputSteam包含了一个数据流对象DFSDataOutputStearm,客户端将使用它来处理数据节点和名称节点之间的通信。

3.客户端调用FSDataOutputStearm的Write函数,向对应的文件写入数据。

4.当客户端开始写入数据时,DFSDataOutputStream会将文件分割成包,然后放入一个内容“数据队列”中,数据系统会将这些小的文件放入数据流中,DataStreamer的作用是请求名称节点为新的文件包分配合适的数据节点存放副本。返回的数据节点形成一个“通道”,假设这里的副本有三个,那么这个管道中就会有三个数据节点将文件包以流的方式传给队列中的第一个数据节点。第一个数据节点会存储这个包,然后将它推送到第二个数据节点,依次重复操作,直到完成“数据流管道”中的最后一个数据节点。

5.·DFDSataOutputStream也会保存一个包的内部队列来等待管道中的数据节点返回确认信息,这个队列被称为“确认队列”。只有当所有管道中的数据节点都返回写入成功的信息后,才会从确认队列中删除。

6.当客户端成功完成数据写入的操作后,调用FASA的Close方法,将所有的数据块写入数据流管道中的数据节点,并等待确认返回成功,最后通过名称节点完成写入。

 



这篇关于HDFS写数据流程的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程