搜索结果
查询Tags标签: HDFS,共有 305条记录-
sqoop从mysql导数据到hdfs使用lzop压缩格式,报:NullPointerException
sqoop从mysql导数据到hdfs使用lzop压缩格式,报:NullPointerException 具体报错如下: Error: java.lang.NullPointerExceptionat com.hadoop.mapreduce.LzoSplitRecordReader.initialize(LzoSplitRecordReader.java:63)at org.apache.hadoop.mapred.MapTask$NewTracking…
2022/6/18 2:50:12 人评论 次浏览 -
大数据之Hadoop集群的HDFS压力测试
测试HDFS写性能 1)写测试的原理2)测试内容:向HDFS集群写10个128MB的文件(3个机器每个4核,2 * 4 = 8 < 10 < 3 * 4 =12) [hadoop@hadoop103 ~]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.j…
2022/6/17 23:28:44 人评论 次浏览 -
SQL与Database
SQL-Structured Query Language 语言简洁,易学易用DDL:Create、Drop、Alter DML:ISUD(Insert、Select、Update、Delete)权限Grant、Revoke场景olap(Analysis) oltp(Transaction)DatabaseBigDataHadoop生态查询引擎组件 定位 架构 开发语言 存储 元数据 查询 安装…
2022/6/1 2:50:37 人评论 次浏览 -
HDFS NameNode Hadoop怎么分片
HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表,这里遵循机架感应原则(把副本分别放在不同的机架,甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块(Hadoop2.X 版本每…
2022/6/1 1:22:34 人评论 次浏览 -
Hadoop分布式文件系统---HDFS
1.HDFS的产生背景 数据量的增多,需要有一种系统管理多台机器的文件,于是产生DFS(Distributed File System)2.HDFS简介 Hadoop项目的核心之一,用于数据存储,HDFS基于GFS开源实现。3.HDFS优点 处理超大文件--MB到TB级(相对应的它不适用于存储很多小文件) 运行于廉价机…
2022/5/30 23:20:03 人评论 次浏览 -
hadoop2.7.6(一)
一、hadoop的发展 二、hadoop框架 Hadoop Common:基础型功能 Hadoop Distributed File System (HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。负责存放数据 Hadoop YARN:作业调度和集群资源管理的框架。负责资源的调配 Hadoop MapReduce:基于 YA…
2022/5/22 23:03:00 人评论 次浏览 -
Hadoop Kerberos配置
创建Hadoop系统用户为Hadoop开启Kerberos,需为不同服务准备不同的用户。 启动服务时需要使用相应的用户。 须在所有节点创建以下用户和用户组。用户划分:User: Group Daemons hdfs: hadoop NameNode, Secondary NameNode, JournalNode, DataNo…
2022/5/4 6:24:02 人评论 次浏览 -
Flume自定义拦截器
需求:一个topic包含很多个表信息,需要自动根据json字符串中的字段来写入到hive不同的表对应的路径中。 发送到Kafka中的数据原本最外层原本没有pkDay和project,只有data和name。因为担心data里面会空值,所以根同事商量,让他们在最外层添加了project和pkDay字段。 pkD…
2022/5/2 23:45:44 人评论 次浏览 -
hadoop无法退出安全模式
hadoop无法退出安全模式,报"name node is in safe mode"错误提示。 集群安全模式集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。 基本语法: (1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态) (2)…
2022/5/2 6:14:38 人评论 次浏览 -
Java操作HDFS
Java操作HDFS 准备工作: Hadoop环境变量配置 jdk环境变量配置 不详细演讲 下面直接演示代码:(如下)点击查看代码import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import org.junit.Before;import …
2022/4/24 14:12:42 人评论 次浏览 -
HDFS API操作
一、导入依赖包 在File->Project Structure->Modules->Dependencies下导入Hadoop->share文件下的相应jar包,包括: common下的:hadoop-common-3.2.1.jar、 hadoop-nfs-3.2.1.jar以及所有lib下的jar包 hdfs下以及hdfs/lib下的所有jar包二、api操作package hd…
2022/4/22 23:15:27 人评论 次浏览 -
Hadoop生态系统
一、hadoop开源生态介绍 1、云计算与大数据 Iaas:基础设施即服务,通过互联网获得服务,例如亚马逊AWS,openStack Paas:平台即服务,把服务器平台作为一种服务,例如虚拟开发平台,默认安装开发环境,hadoop Saas:软件即服务,例如office365,大量app 2、大数据应用 hadoop提…
2022/4/22 23:15:17 人评论 次浏览 -
Hadoop_JAVA操作HDFS
之前已经在虚拟机上安装好了hadoop,下面纪录下用java操作hdfs和中间遇到的一些问题,使用的是伪分布式模式 一 本地配置hadoop环境变量 此处默认已经具备jdk环境.将hadoop的压缩包解压到任意目录 在环境变量中配置HADOOP_HOME变量,值为hadoop所在的目录 二、编写测试类impo…
2022/4/20 1:14:42 人评论 次浏览 -
HDFS编程实践
HDFS编程实践 1、利用Shell命令与HDFS进行交互 Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。 注意,实际上有三种shell命令方式。hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDF…
2022/4/19 11:13:04 人评论 次浏览 -
HDFS概述
HDFS采用master/slave架构,是分布式文件存储系统,适应一次写入,多次读出的场景,但是不支持文件的修改。 一个HDFS集群是由一个Namenode和一定数目的Datanode组成。Namenode是HDFS集群主节点,Datanode是HDFS集群从节点 HDFS中文件在物理上是分块存储的,块的大小是按照…
2022/4/16 23:14:17 人评论 次浏览