安装spark和python练习
2022/3/5 17:15:24
本文主要是介绍安装spark和python练习,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
一、安装并配置Spark
1.首先检查一下java和hadoop的环境
2.下载spark
3.解压spark安装包,对文件夹重命名,复制配置文件
4.对配置文件进行修改
1.对
/usr/local/spark/conf/spark-env.sh
的配置文件进行修改,加入
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)
2.其次,再对~/.bashrc配置文件进行修改,加入
# spark python export SPARK_HOME=/usr/local/spark export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.2-src.zip:PYTHONPATH export PYSPARK_PYTHON=python3 export PATH=$PATH:$SPARK_HOME/bin
3.配置好环境变量之后,进行
source ~/.bashrc
5.配置好环境之后就可以启动spark了,
6.输入python代码进行测试
7.结束测试之后可以通过exit()
、quit()
退出spark
二、用python实现英文文本的词频统计
1.实验所要使用的英语文章的材料
2.对文件进行读取
txt = open("/usr/local/spark/pythonspark/workcount.txt", "r").read() # 读取文件
3. 对数据进行预处理
txt = txt.lower() # 把所有字母都变成小写,便于统计 #将文本中特殊字符替换为空格 for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~': txt = txt.replace(ch, " ") return txt
4.预处理完之后读取文件的内容
hamletTxt = getText()
5.读取停用词
f = open("/usr/local/spark/pythonspark/ceasetext.txt","r",encoding = 'UTF-8') a = f.read() ceasetext_n= a f.close()
停用词列表如下
6.将上述停用词筛选出去
# 将停用词剔除掉 words = hamletTxt.split() # 将文本用空格分隔 finalword = [] for word in words: if word not in ceasetext_n: finalword.append(word)
7.统计单词出现的次数并且进行排序
counts = {} # 统计单词出现的次数 for word in finalword: counts[word] = counts.get(word,0) + 1 items = list(counts.items()) # 排序,按单词出现的次数从大到小排好序 items.sort(key=lambda x:x[1], reverse=True)
8.最后将次数排名前50的单词打印出来
for i in range(50): word, count = items[i] print ("{0:<10}{1:>5}".format(word, count))
三、python编程环境的搭建(本人选择pycharm作为ide来使用)
1. 下载pycharm
2. 对pycharm压缩包进行解压,并且赋权
tar -zxvf pycharm-community-2021.3.2.tar.gz 路径 sudo chown -R 用户名 目标路径
3. 启动pycharm
pycharm.sh
4.安装完成
这篇关于安装spark和python练习的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-14获取参数学习:Python编程入门教程
- 2024-11-14Python编程基础入门
- 2024-11-14Python编程入门指南
- 2024-11-13Python基础教程
- 2024-11-12Python编程基础指南
- 2024-11-12Python基础编程教程
- 2024-11-08Python编程基础与实践示例
- 2024-11-07Python编程基础指南
- 2024-11-06Python编程基础入门指南
- 2024-11-06怎么使用python 计算两个GPS的距离功能-icode9专业技术文章分享