python数据可视化初步-词云实践
2021/10/9 14:50:22
本文主要是介绍python数据可视化初步-词云实践,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
背景
今天学习了词语的使用 借机研究了数据可视化
数据可视化
在大数据分析工具和软件中提到的数据可视化,就是利用运用计算机图形学、图像、人机交互等技术,将采集或模拟的数据映射为可识别的图形、图像。
1. 什么是词云
“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,一眼扫过文本就可以领略文本的主旨。
词云”就是数据可视化的一种形式。给出一段文本的关键词,根据关键词的出现频率而生成的一幅图像,人们只要扫一眼就能够明白文章主旨。
2. 词云的生成
工具:
- matplotlib matplotlib,python 绘图库,最终词云的绘制需要用到它。
- jieba jieba,最开源中文分词工具。他最主要的两个功能是分词和关键词的抽取。在词云的生成过程中都需要用到。
- wordcloud wordcloud是一个词云生成器,只要进行相关的配置就能生成相应的词云。
实现过程
实现的过程简单来讲,两步走,1. 提取关键词,2. 生成词云。
Demo : 解析爱在遥远的星空下
在电脑中发现一个text文档 《爱在遥远的星空下》[作者]雪透 TXT下载
尝试做了解析
原图
码云
分词没有特别设的 所以出现最多的是男女主名字
程序示例
from wordcloud import WordCloud import jieba import PIL import matplotlib.pyplot as plt import numpy as np def wordcloudplot(txt): font = r'cn.ttf' demo_mask = np.array(PIL.Image.open('test2.png')) wordcloud = WordCloud(font_path=font, background_color="white", margin=5, width=1800, height=800, mask=demo_mask, max_words=2000, max_font_size=60, random_state=42) wordcloud = wordcloud.generate(txt) wordcloud.to_file('t2.jpg') plt.imshow(wordcloud) plt.axis("off") plt.show() def main(): a = [] f = open(r'book.txt', 'r',encoding='utf-8').read() words = list(jieba.cut(f)) for word in words: if len(word) > 1: a.append(word) txt = r' '.join(a) wordcloudplot(txt) if __name__ == '__main__': main()
结论
这是一个简单的数据可视化 分词决定了统计结果
这篇关于python数据可视化初步-词云实践的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-24Python编程基础详解
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程