点互信息pmi
2021/10/5 23:41:39
本文主要是介绍点互信息pmi,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
由于在文本处理中会用到互信息所以做一下总结
pmi(Pointwise Mutual Information):
如果a和b不相关值为1。当ab条件独立时,p(a|b) = p(a)此时pmi为0。
如果ab的联合概率越大则该值越大。
在文本处理中经常会遇到计算pmi
其中 p(a,b) 为 a和b共现的次数/总字符数(如果ab均代表字符的情况下也就是unigram)
p(a) 为 a出现的次数/总字符数,p(b) 为b出现的次数/总字符数
这里联合概率是存在一些问题的因为p(a,b) = p(b,a) 但实际文本处理过程中a和b两个字符存在顺序。
参考文献:
互联网时代的社会语言学:基于SNS的文本数据挖掘 | Matrix67: The Aha Moments
新词发现的信息熵方法与实现 - 科学空间|Scientific Spaces
点互信息和互信息 PMI - 简书
这篇关于点互信息pmi的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-10-01基于Python+Vue开发的医院门诊预约挂号系统
- 2024-10-01基于Python+Vue开发的旅游景区管理系统
- 2024-10-01RestfulAPI入门指南:打造简单易懂的API接口
- 2024-10-01初学者指南:了解和使用Server Action
- 2024-10-01Server Component入门指南:搭建与配置详解
- 2024-10-01React 中使用 useRequest 实现数据请求
- 2024-10-01使用 golang 将ETH账户的资产平均分散到其他账户
- 2024-10-01JWT用户校验课程:从入门到实践
- 2024-10-01Server Component课程入门指南
- 2024-09-30Dnd-Kit学习:新手快速入门指南