基于Hadoop的Spark超快安装
2021/5/18 18:57:37
本文主要是介绍基于Hadoop的Spark超快安装,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
文章目录
- 前言
- 一、Spark的安装
- 总结
前言
基于Hadoop的Spark超快安装
一、Spark的安装
待Hadoop安装好之后,我们再开始安装Spark。
我选择的是Spark 2.4.8 版本,选择package type为"Pre-built with user-provided Apache Hadoop",这个包类型,简单配置后可以应用到任意Hadoop版本。
复制链接到迅雷下载。
官网下载链接:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.8/spark-2.4.8-bin-without-hadoop.tgz
把下载好的Spark拖进虚拟机。(安装了Vmware Tools可以直接从主机拖进虚拟机,上一篇博客有说明)
解压安装包至路径 /usr/local,执行如下命令:
sudo tar -zxf ~/Desktop/spark-2.4.8-bin-without-hadoop.tgz -C /usr/local/ cd /usr/local sudo mv ./spark-2.4.8-bin-without-hadoop/ ./spark #更改文件夹名 sudo chown -R hadoop ./spark #此处的hadoop为系统用户名
注意:此处-R后面是自己的系统用户名,我的用户名是smallsa。
配置Spark的classpath。
cd /usr/local/spark cp ./conf/spark-env.sh.template ./conf/spark-env.sh #拷贝配置文件
编辑该配置文件,在文件最后面加上如下一行内容:
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
保存配置文件后,就可以启动、运行Spark了。
若需要使用HDFS中的文件,则在使用Spark前需要启动Hadoop。
执行如下命令配置路径:
sudo vi ~/.bashrc
在文件最上面加上下面的内容:
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip: $PYTHONPATH export PYSPARK_PYTHON=python3
执行如下命令更新以下:
source ~/.bashrc
因为是基于Hadoop,所以我们先启动Hadoop,再启动Spark。可以看到Hadoop和Spark都启动成功了。
运行pyspark
总结
这篇关于基于Hadoop的Spark超快安装的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2023-05-13Windows下hadoop环境搭建之NameNode启动报错
- 2023-04-14hadoop伪分布式集群的安装(不是单机版)
- 2022-12-05Hadoop生态系统—数据仓库Hive的安装
- 2022-11-02Win10搭建Hadoop环境
- 2022-10-19Hadoop生态系统(数据仓库Hive的安装)
- 2022-10-03Hadoop、storm和Spark Streaming简单介绍
- 2022-10-03胖虎的Hadoop笔记——Hadoop的伪分布式部署
- 2022-09-11Ubuntu搭建全分布式Hadoop
- 2022-09-11Ubuntu搭建全分布式Hadoop
- 2022-09-09Ubuntu下安装伪分布式HADOOP遇到的一些问题