搜索结果
查询Tags标签: Transformer,共有 79条记录-
文本摘要-07-性能提升之基于Transformer的PGN模型
背景前一篇文章中,采用了在当前比较主流的Transformer模型,Transformer模型本质来看是基于Encoder-Decoder框架,其解码方式本质上和seq2seq模型的解码方式基本相同。seq2seq的重要缺陷之一在于其不具备生成能力,而PGN模型具备着良好的生成能力。因此,本文拟结合Trans…
2021/8/27 23:09:21 人评论 次浏览 -
Attention与Transformer学习
图解Attention Seq2Seq模型 Seq2Seq模型接受一个序列(单词、字母、图像特征),输出另一个序列。 组成编码器(Encoder) 处理输入序列中的每个元素,将其转换为一个向量(上下文 context)解码器(Decoder) 逐项生成输出序列中的元素Context的长度可在编写Seq2Seq模型的时候设…
2021/8/18 23:08:26 人评论 次浏览 -
Attention与Transformer学习
图解Attention Seq2Seq模型 Seq2Seq模型接受一个序列(单词、字母、图像特征),输出另一个序列。 组成编码器(Encoder) 处理输入序列中的每个元素,将其转换为一个向量(上下文 context)解码器(Decoder) 逐项生成输出序列中的元素Context的长度可在编写Seq2Seq模型的时候设…
2021/8/18 23:08:26 人评论 次浏览 -
【论文笔记2】Long-Short Transformer: Efficient Transformers for Language and Vision
论文原文:https://arxiv.org/abs/2107.02192 论文笔记:百度网盘提取码:nzsi 1. Summary Contributions: (1)提出了一种长短时Transformer模型:Long-Short Transformer (Transformer-LS): Short:利用滑动窗口获取短序列(局部)attentionLong:基于动态投影获取长…
2021/7/29 23:10:19 人评论 次浏览 -
【论文笔记2】Long-Short Transformer: Efficient Transformers for Language and Vision
论文原文:https://arxiv.org/abs/2107.02192 论文笔记:百度网盘提取码:nzsi 1. Summary Contributions: (1)提出了一种长短时Transformer模型:Long-Short Transformer (Transformer-LS): Short:利用滑动窗口获取短序列(局部)attentionLong:基于动态投影获取长…
2021/7/29 23:10:19 人评论 次浏览 -
Linux系统搭建MMdetection(Swin-Transformer)环境
目录 开始安装 创建conda虚拟环境 安装pytorch(重要) 安装mmcv-full(极易出错) 下载MMDetection仓库 安装依赖官方教程网址,点击get_started官方教程地址,获取最新安装方式开始安装 创建conda虚拟环境 在控制台依次输入下列代码,创建名为open-mmlab的虚拟环境,并激…
2021/7/16 7:06:39 人评论 次浏览 -
Linux系统搭建MMdetection(Swin-Transformer)环境
目录 开始安装 创建conda虚拟环境 安装pytorch(重要) 安装mmcv-full(极易出错) 下载MMDetection仓库 安装依赖官方教程网址,点击get_started官方教程地址,获取最新安装方式开始安装 创建conda虚拟环境 在控制台依次输入下列代码,创建名为open-mmlab的虚拟环境,并激…
2021/7/16 7:06:39 人评论 次浏览 -
【李宏毅2020 ML/DL】P56 Transformer and its variant | New Architecture
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-notes 本节内容综述 本节课由助教纪伯翰讲解。本次演讲的标题为“New Architecture”。 助教建议:一般,…
2021/6/22 23:27:14 人评论 次浏览 -
Transformer的说明
本篇为《深度学习》系列博客的第十六篇,该系列博客主要记录深度学习相关知识的学习过程和自己的理解,方便以后查阅。 原文地址:https://jalammar.github.io/illustrated-transformer/The Illustrated Transformer A High-Level LookBringing The Tensors Into The Pict…
2021/6/12 18:27:09 人评论 次浏览 -
Transformer模型有多少种变体?复旦邱锡鹏教授团队做了全面综述
自 2017 年 6 月谷歌发布论文《Attention is All You Need》后,Transformer 架构为整个 NLP 领域带来了极大的惊喜。在诞生至今仅仅四年的时间里,Transformer 已经成为自然语言处理领域的主流模型,基于 Transformer 的预训练语言模型更是成为主流。 随着时间的推移,Tr…
2021/6/11 18:45:13 人评论 次浏览 -
Backbone - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
文章目录 0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言 相关资料: arxivgithub论文解读 论文基本信息 领域:Transformer作者单位:微软亚洲研究院发表时间:2021.3 一句话总结:将 hierarchical 引入 Transformer 1. 要…
2021/6/5 7:23:27 人评论 次浏览 -
一点就分享系列(实践篇3-中篇)— 虽迟但到!全网首发?yolov5之“baseline修改小结“+“CV领域展开-Involution&&transformer&&cnn”
一点就分享系列(实践篇3-中篇)— yolov5之“修改总结以及baseline算子的分享" ** 说明上篇有很多朋友照搬了我的yaml结构,这里抱歉下也有原因是我的工作偏工程,真的研究时间有限!且温馨提示:如果耐心看完我的文章,应该了解我的本意是分享和大家一起交流,在V5…
2021/6/4 18:52:16 人评论 次浏览 -
Hierarchical Learning for Generation with Long Source Sequences翻译
摘要 当前序列到序列(seq2seq)模型的挑战之一是处理长序列,例如文档摘要和文档级机器翻译任务中的序列。这些任务需要模型在字符级别以及句子和段落级别进行推理。我们设计和研究了一种新的基于分层注意力Transformer的体系结构(HAT),该结构在几个序列到序列任务上的…
2021/6/4 18:25:00 人评论 次浏览 -
effective_transformer
对字节跳动 effective_transformermer的理解transformer模型在self-attention的时候,需要用到统一输入batch的长度。但是其他模块不需要。因此,在其他模块(FF模块)可以移除pad token
2021/6/2 10:28:37 人评论 次浏览 -
LeViT: aVision Transformer in ConvNet‘s Clothing for Fast in
摘要 我们设计了一系列图像分类架构,可以在高速模式下优化精度和效率之间的平衡。我们的工作利用了基于注意力的体系结构的最新发现,这种体系结构在高度并行处理硬件上具有竞争力。我们重温了大量文献中关于卷积神经网络的原理,并将其用于transformer,特别是分辨率不断…
2021/5/30 10:23:02 人评论 次浏览