盘点一个英文文本中统计关键词的方法
2022/11/29 4:24:02
本文主要是介绍盘点一个英文文本中统计关键词的方法,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
大家好,我是皮皮。
一、前言
前几天在Python最强王者交流群【Wendy Zheng】问了一个英文文本中统计关键词的问题,这里拿出来给大家分享下。
二、实现过程
针对这个问题,本文给出一个思路方法,也许有帮助,首先我们需要将Excel中的文本进行导入到一个文本文件中去,代码如下:
# coding: utf-8 import pandas as pd df = pd.read_excel('./文本.xlsx') # print(df.head()) # df['专业关键词'] for text in df['工作要求']: # print(text) if text is not None: with open('工作要求.txt', mode='a', encoding='utf-8') as file: file.write(str(text)) print('写入完成')
接下来就可以针对这个文本文件进行相关的词频统计了,如果你有自己自定义的关键词,也可以就着关键词去统计,没有的话,就自己在关键词范围内,任意取多少个关键词都可以,相关的代码如下所示:
from collections import Counter import pandas as pd df = pd.read_excel('./文本.xlsx') # print(df.head()) words = [] with open('工作要求.txt', 'r', encoding='utf-8') as f: line = f.readlines() for word in line[0].split(' '): words.append(word) print(len(words)) counter = Counter(words) # print(counter) # df['专业关键词'] for text in df['专业关键词']: for k, v in counter.items(): if k == text: print(k, v)
这个代码对于英文文本还是适用的,不过有个小问题,如下。
最后这里也给出中文分词的代码和可视化代码,两者结合在一起的,感兴趣的小伙伴们可以试试看。
from collections import Counter # 统计词频 from pyecharts.charts import Bar from pyecharts import options as opts from snownlp import SnowNLP import jieba # 分词 with open('text_分词后_outputs.txt', 'r',encoding='utf-8') as f: read = f.read() with open('stop_word.txt', 'r', encoding='utf-8') as f: stop_word = f.read() word = jieba.cut(read) words = [] for i in list(word): if i not in stop_word: words.append(i) columns = [] data = [] for k, v in dict(Counter(words).most_common(10)).items(): columns.append(k) data.append(v) bar = ( Bar() .add_xaxis(columns) .add_yaxis("词频", data) .set_global_opts(title_opts=opts.TitleOpts(title="词频top10")) ) bar.render("词频.html")
三、总结
大家好,我是皮皮。这篇文章主要盘点了一个英文文本中统计关键词方法处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。
最后感谢粉丝【Wendy Zheng】提问,感谢【Python进阶者】给出的思路和代码解析,感谢【Python狗】等人参与学习交流。
这篇关于盘点一个英文文本中统计关键词的方法的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-24Java中定时任务实现方式及源码剖析
- 2024-11-24Java中定时任务实现方式及源码剖析
- 2024-11-24鸿蒙原生开发手记:03-元服务开发全流程(开发元服务,只需要看这一篇文章)
- 2024-11-24细说敏捷:敏捷四会之每日站会
- 2024-11-23Springboot应用的多环境打包入门
- 2024-11-23Springboot应用的生产发布入门教程
- 2024-11-23Python编程入门指南
- 2024-11-23Java创业入门:从零开始的编程之旅
- 2024-11-23Java创业入门:新手必读的Java编程与创业指南
- 2024-11-23Java对接阿里云智能语音服务入门详解