jieba库中基于 TextRank 算法的关键词抽取——源代码分析(八)
2021/11/29 1:06:05
本文主要是介绍jieba库中基于 TextRank 算法的关键词抽取——源代码分析(八),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
2021SC@SDUSC
2021SC@SDUSC
在之前的博客中已经详细分析了jieba中用于提取关键词的TextRank算法的源代码分析,但是比较零碎,我们现在可以使用例子来更好地了解TextRank算法源代码的工作原理以及一些可能忽略掉的细节。
例如下面这段话(选自人民日报微博):
【夜读:过得充实的人,都有这六个好习惯】①读书:不断追求成长和进步;②运动:保持积极的身心状态;③培养兴趣:爱好让生活丰富有趣;④制定计划:让目标成就更好的自己;⑤自省:拥有自我更新的能力,完善和提高自己;⑥保持好心态;始终保持空杯心态,接纳和学习更多东西。
如果我们对其使用Text Rank算法,那么第一步就是分词。
首先使用到方法中的这段源代码:
def textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False): """ Extract keywords from sentence using TextRank algorithm. Parameter: - topK: return how many top keywords. `None` for all possible words. - withWeight: if True, return a list of (word, weight); if False, return a list of words. - allowPOS: the allowed POS list eg. ['ns', 'n', 'vn', 'v']. if the POS of w is not in this list, it will be filtered. - withFlag: if True, return a list of pair(word, weight) like posseg.cut if False, return a list of words """ self.pos_filt = frozenset(allowPOS) g = UndirectWeightedGraph() cm = defaultdict(int) words = tuple(self.tokenizer.cut(sentence))
这篇关于jieba库中基于 TextRank 算法的关键词抽取——源代码分析(八)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-26JavaScript入门教程:从零开始学习JavaScript编程
- 2024-12-26JavaScript入门教程:从零开始学习JavaScript
- 2024-12-26JS编程入门指南:从零开始学习JavaScript
- 2024-12-25Java编程面试题详解与解答
- 2024-12-25TS基础知识详解:初学者必看教程
- 2024-12-252024面试题解析与攻略:从零开始的面试准备指南
- 2024-12-25数据结构与算法学习:新手入门教程
- 2024-12-25初学者必备:订单系统资料详解与实操教程
- 2024-12-24内网穿透资料入门教程
- 2024-12-24微服务资料入门指南