python实验:去除注水书评
2021/10/2 17:10:19
本文主要是介绍python实验:去除注水书评,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
文章目录
- 实验题目
- 一、思路
- 二、步骤
- 1.思路
- 2.编码
- 总结
实验题目
## 实验题1
以下是一系列书评,但是很多是灌水的,请你写一段代码,把灌水的书评尽可能去掉。
灌水书评一般会有一个特点:重复的字比较多,利用这个特点,把灌水书评去掉
‘这是一本非常好的书,作者用心了’,
‘作者大大辛苦了’,
‘好书,感谢作者提供了这么多的好案例’,
‘书在运输的路上破损了,我好悲伤。。。’,
‘为啥我买的书上有菜汤。。。。’,
‘啊啊啊啊啊啊,我怎么才发现这么好的书啊,相见恨晚’,
‘书的质量有问题啊,怎么会开胶呢??????’,
‘好好好好好好好好好好好’,
‘好难啊看不懂好难啊看不懂好难啊看不懂’,
‘书的内容很充实’,
‘你的书上好多代码啊,不过想想也是,编程的书嘛,肯定代码多一些’,
‘书很不错!!一级棒!!买书就上当当,正版,价格又实惠,让人放心!!!’,
‘无意中来到你小铺就淘到心意的宝贝,心情不错!’,
‘送给朋友的、很不错’,
‘这是一本好书,讲解内容深入浅出又清晰明了,推荐给所有喜欢阅读的朋友同好们。’,
‘好好好,下一个看看’,
‘渣渣渣渣渣渣渣渣’,
没用没用没用没用’,
‘很好的书,五颗星’
一、思路
注水书评的特点就是重复字或者说重复词较多,这里我们不妨使用第三方库jieba库来对要筛选的评论进行分词处理,然后对分词的单位词语长度乘以单位词语出现的次数,如果相乘的结果大于该句评论字数的一半,我们则认为其是注水书评。二、步骤
1.思路
评论读出(txt文件读取)->对评论进行按条放置(列表放置)->对每条评论用jieba库进行分词->单位词长度*单位词出现次数进行判断->移除注水评论
2.编码
代码如下(示例):
import jieba file= open("shuping.txt", "r", encoding='utf-8').read() file=file.replace(',', '').replace('.', '').replace('\'', '') linesList=file.split('\n') # 将读出的每行评论作为不同的元素放到list当中去 removelines=[] for line in linesList: words=jieba.cut(line,cut_all=True) #使用精准模式进行分词 counts={} for word in words: counts[word] = counts.get(word, 0) + 1 # 遍历所有词语,每出现一次其对应的值加 1 wordslist = list(counts.items()) for item in wordslist: if (len(item[0])*item[1]>=len(line)*0.5): print("该被移除-->"+str(linesList.index(line))) if line in linesList: removelines.append(line) break for line in removelines: linesList.remove(line) print(linesList)
总结
代码耦合度较高,且该种方法只能删除注水书评中重复字数较多的情况,有待进一步提高,欢迎有更好想法的朋友留言我改进。
这篇关于python实验:去除注水书评的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-26Python基础编程
- 2024-11-25Python编程基础:变量与类型
- 2024-11-25Python编程基础与实践
- 2024-11-24Python编程基础详解
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南