python深度学习进阶(自然语言处理)—word2vec
2021/5/23 20:29:01
本文主要是介绍python深度学习进阶(自然语言处理)—word2vec,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
python深度学习进阶(自然语言处理)—word2vec
摘要
- 基于推理的方法以预测为目标,同时获得了作为副产物的单词的分布式表示。
- word2vec 是基于推理的方法,由简单的 2 层神经网络构成。
- word2vec 有 skip-gram 和 CBOW 模型。
- CBOW 模型从多个单词(上下文)预测 1 个单词(目标词)。
- skip-gram 模型反过来从 1 个单词(目标词)预测多个单词(上下文)。
- 由于 word2vec 可以进行权重的增量学习,所以能够高效地更新或添加单词的分布式表示。
1. 基于推理的方法和神经网络
1.1 基于计数的方法的问题
基于计数的方法获得单词的分布式表示:使用整个语料库的统计数据(共现矩阵和 PPMI 等),通过一次处理(SVD 等)获得单词的分布式表示。
基于推理的方法获得单词的分布式表示:使用神经网络,通常在 mini-batch 数据上进行学习。
对于一个 的矩阵,SVD 的复杂度是 ,这表示计算量与 的立方成比例增长。如此大的计算成本,即便是超级计算机也无法胜任。实际上,利用近似方法和稀疏矩阵的性质,可以在一定程度上提高处理速度,但还是需要大量的计算资源和时间。
在现实世界中,语料库处理的单词数量非常大。比如,英文的词汇量多达 100w+。如此之大的词汇量,如果使用基于计数的方法就需要生成一个 100w * 100w 的庞大矩阵,对如此庞大的矩阵执行 SVD 显然是不现实的。
基于计数的方法和基于推理的方法的比较:
(1)基于计数的方法一次性处理全部学习数据;基于推理的方法使用部分学习数据逐步学习。
(2)神经网络的学习可以使用多台机器、多个 GPU 并行执行,从而加速整个学习过程。
1.2 基于推理的方法的概要
基于推理的方法的主要操作是 “推理”。如图 3-2 所示,当给出周围的单词(上下文)时,预测 “?” 处会出现什么单词,这就是推理。
解开图 3-2 中的推理问题并学习规律,就是基于推理的方法的主要任务。通过反复求解这些推理问题,可以学习到单词的出现模式。从 “模式视角” 出发,这个推理问题如图 3-3 所示。
基于推理的方法的全貌:使用语料库来学习模型,使之能做出正确的预测。另外,作为模型学习的产物,我们得到了单词的分布式表示。
(1)引入某种模型,将神经网络用于此模型;
(2)模型接收上下文信息作为输入,并输出(可能出现的)各个单词的出现概率。
1.3 神经网络中单词的处理方法
将单词表示为文本、单词ID和 one-hot 表示:
要将单词转化为 one-hot 表示,就需要准备元素个数与词汇个数相等的向量,并将单词 ID 对应的元素设为 1,其他元素设为 0。像这样,只要将单词转化为固定长度的向量,神经网络的输入层的神经元个数就可以固定下来(图 3-5)。
如图 3-5 所示,输入层由 7 个神经元表示,分别对应于 7 个单词(第 1 个神经元对应于 you,第 2 个神经元对应于 say)。
基于神经网络的全连接层的变换:
如图 3-6 所示,全连接层通过箭头连接所有节点。这些箭头拥有权重(参数),它们和输入层神经元的加权和成为中间层的神经元。
Python 代码实现基于神经网络的全连接层的变换:
import numpy as np class MatMul: def __init__(self, W): self.params = [W] self.grads = [np.zeros_like(W)] self.x = None def forward(self, x): W, = self.params out = np.dot(x, W) self.x = x return out def backward(self, dout): W, = self.params dx = np.dot(dout, W.T) dW = np.dot(self.x.T, dout) self.grads[0][...] = dW return dx
"""基于神经网络全连接层的变换""" import sys sys.path.append("..") import numpy as np from common.layers import MatMul C = np.array([[1, 0, 0, 0, 0, 0, 0]]) # 输入 W = np.random.randn(7, 3) # 权重 # 方案一 h = np.dot(C, W) # 中间节点 print(h) # 方案二 layer = MatMul(W) h = layer.forward(C) # 中间节点 print(h)
[[-0.00183343 -0.41558399 0.13295223]] [[-0.00183343 -0.41558399 0.13295223]]
矩阵 C:one-hot 表示,单词 ID 对应的元素是 1,其他地方都是 0。
上述代码的 C 和 W 的矩阵乘积相当于 “提取” 权重的对应行向量。
2. 简单的 word2vec
2.1 CBOW 模型的推理
2.2 CBOW 模型的学习
2.3 word2vec 的权重和分布式表示
3. 学习数据的准备
3.1 上下文的目标词
3.2 转化为 one-hot 表示
4. CBOW 模型的实现
5. word2vec 的补充说明
5.1 CBOW 模型和概率
5.2 skip-gram 模型
5.3 基于计数与基于推理
这篇关于python深度学习进阶(自然语言处理)—word2vec的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-21Python编程基础教程
- 2024-11-20Python编程基础与实践
- 2024-11-20Python编程基础与高级应用
- 2024-11-19Python 基础编程教程
- 2024-11-19Python基础入门教程
- 2024-11-17在FastAPI项目中添加一个生产级别的数据库——本地环境搭建指南
- 2024-11-16`PyMuPDF4LLM`:提取PDF数据的神器
- 2024-11-16四种数据科学Web界面框架快速对比:Rio、Reflex、Streamlit和Plotly Dash
- 2024-11-14获取参数学习:Python编程入门教程
- 2024-11-14Python编程基础入门