安装spark和python练习

2022/3/5 17:15:24

本文主要是介绍安装spark和python练习,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

一、安装并配置Spark

1.首先检查一下java和hadoop的环境

2.下载spark

3.解压spark安装包,对文件夹重命名,复制配置文件

4.对配置文件进行修改

1.对/usr/local/spark/conf/spark-env.sh的配置文件进行修改,加入

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

2.其次,再对~/.bashrc配置文件进行修改,加入

# spark python 
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.2-src.zip:PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$PATH:$SPARK_HOME/bin

3.配置好环境变量之后,进行

source ~/.bashrc

5.配置好环境之后就可以启动spark了,

6.输入python代码进行测试

7.结束测试之后可以通过exit()quit()退出spark

二、用python实现英文文本的词频统计

1.实验所要使用的英语文章的材料

2.对文件进行读取

txt = open("/usr/local/spark/pythonspark/workcount.txt", "r").read() # 读取文件

3. 对数据进行预处理

    txt = txt.lower() # 把所有字母都变成小写,便于统计    
    #将文本中特殊字符替换为空格
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")   
    return txt

4.预处理完之后读取文件的内容

hamletTxt = getText()

5.读取停用词

f = open("/usr/local/spark/pythonspark/ceasetext.txt","r",encoding = 'UTF-8')
a = f.read()
ceasetext_n= a
f.close()

停用词列表如下

6.将上述停用词筛选出去

# 将停用词剔除掉
words  = hamletTxt.split()  # 将文本用空格分隔
finalword = []
for word in words:
    if word not in ceasetext_n:
    	finalword.append(word)

7.统计单词出现的次数并且进行排序

counts = {}
# 统计单词出现的次数
for word in finalword:
    counts[word] = counts.get(word,0) + 1
items = list(counts.items())
 
# 排序,按单词出现的次数从大到小排好序
items.sort(key=lambda x:x[1], reverse=True) 

8.最后将次数排名前50的单词打印出来

for i in range(50):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

三、python编程环境的搭建(本人选择pycharm作为ide来使用)

1. 下载pycharm

2. 对pycharm压缩包进行解压,并且赋权

tar -zxvf  pycharm-community-2021.3.2.tar.gz 路径
sudo chown -R 用户名 目标路径

3. 启动pycharm

pycharm.sh

4.安装完成



这篇关于安装spark和python练习的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程