PaperNotes: attention系列 (2) - ANMT
2020/6/22 6:26:24
本文主要是介绍PaperNotes: attention系列 (2) - ANMT,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
1. paper
Effective Approaches to Attention-based Neural Machine Translation 2015
2. keypoint
提出了 global attention和local attention用于nmt。 其中global attention类似soft attention,而local attention是结合了soft attention和hard attention的变形。
3. 简介
此时nmt已经开始使用了,但是没有合适的attentin结构本文就提出了global 和 local attention结构。
4. 模型
4.1 概述
模型选用的RNN单元是LSTM,且用的是多层LSTM结构。
在预测阶段,输入LSMT最后一层输出的和同时用attention机制计算出的,得到一个注意力隐藏层
通过一个softmax层得到该词被翻译成某个词的概率。
本文提出了global和local两种模型,最主要就是计算不同。在预测时,global是考虑target hidden state 与全局source items 的alignment weights。对全局source items和对应的alignment Weights求一个weighted average作为
而local根据target预测其在source items位置,在窗口内的source hiddent states才参与attention和weighted average计算。
4.2 global attention
如Figure2所示。计算时需要考虑encoder的全部hidden state。这里的是变长的,因为source target是变长的。
score的计算方法有content based。这三个方法本质是一样的。
以及location based,即attention只与target hidden state有关。
4.3 local attention
global attention需要考虑之前所有的source hidden state,计算耗时很大。对于长文本(比如文章)这是不能接受的。因此提出了local attention。 对每一个target item,模型先预测一个,给一个窗口参数D,context vector 就是这个区间的source hidden state 的weighted average。注意这里的 attention weight 是定长的,因为D确定了。
这里的计算方法也提出了2种。
- 单调对齐。 和stm模型中词对齐的作用一样。可以简单的设 ,认为source item和target item是单调对齐的。
- 预测。
和都是模型参数,S是source item length。为了让对齐的值更靠近,这里用均值在附近的高斯分布。
(经验值),是一个实数,s是一个在窗口内的整数。
4.3 input-feeding approch
尽管考虑了attention,但是每次的attention
5. 实验
这篇关于PaperNotes: attention系列 (2) - ANMT的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-27揭秘Fluss 与 Kafka、Paimon 的区别与联系
- 2024-12-27顶级情感分析接口:7个高效API推荐
- 2024-12-26从零开始学习贪心算法
- 2024-12-26线性模型入门教程:基础概念与实践指南
- 2024-12-25探索随机贪心算法:从入门到初级应用
- 2024-12-25树形模型进阶:从入门到初级应用教程
- 2024-12-25搜索算法进阶:新手入门教程
- 2024-12-25算法高级进阶:新手与初级用户指南
- 2024-12-25随机贪心算法进阶:初学者的详细指南
- 2024-12-25贪心算法进阶:从入门到实践