站内搜索关键词：Transformer，共有79个结果！为之网,www.weizhi.cc

热门标签更多>

Java (39556) python (32336) mysql (18517) int (18371) android (12233) linux (11908) public (10045) javascript (9605) -- (8450) C++ (8056) Redis (7974) 数据库 (7876) string (7726) 算法 (7099) 安装 (6804) js (6730) 文件 (6610) name (6609) jQuery (6507) php (6479) SQL (6385) 源码 (5933) new (5620) system (5620) 函数 (5604) 线程 (5432) print (5290) return (5272) id (5083) spring (4787) vue (4743) 数据 (4565) 前端 (4468) import (4409) root (4321) 学习 (4284) 数组 (4177) nginx (4149) out (4101) c# (4027) 方法 (3966) 字符串 (3937) 对象 (3873) https (3802) 10 (3694) data (3678) println (3678) com (3610) 编程 (3556) select (3516) oracle (3442) 面试 (3415) windows (3408) docker (3341) 内存 (3284) key (3212) ios (3133) 服务器 (3132) 笔记 (3111) list (3105) node (3104) 代码 (3076) 节点 (3059) 查询 (3056) 元素 (2995) void (2835) 变量 (2830) null (2817) include (2816) __ (2807) log (2713) server (2678) var (2625) 命令 (2599) 语句 (2564) html (2534) class (2529) vue.js (2481) 程序员 (2469) 索引 (2466)

搜索结果

查询Tags标签： Transformer，共有 79条记录

文本摘要-07-性能提升之基于Transformer的PGN模型

背景前一篇文章中，采用了在当前比较主流的Transformer模型，Transformer模型本质来看是基于Encoder-Decoder框架，其解码方式本质上和seq2seq模型的解码方式基本相同。seq2seq的重要缺陷之一在于其不具备生成能力，而PGN模型具备着良好的生成能力。因此，本文拟结合Trans…

2021/8/27 23:09:21 人评论次浏览
Attention与Transformer学习

图解Attention Seq2Seq模型 Seq2Seq模型接受一个序列(单词、字母、图像特征)，输出另一个序列。组成编码器（Encoder) 处理输入序列中的每个元素，将其转换为一个向量(上下文 context)解码器（Decoder) 逐项生成输出序列中的元素Context的长度可在编写Seq2Seq模型的时候设…

2021/8/18 23:08:26 人评论次浏览
Attention与Transformer学习

图解Attention Seq2Seq模型 Seq2Seq模型接受一个序列(单词、字母、图像特征)，输出另一个序列。组成编码器（Encoder) 处理输入序列中的每个元素，将其转换为一个向量(上下文 context)解码器（Decoder) 逐项生成输出序列中的元素Context的长度可在编写Seq2Seq模型的时候设…

2021/8/18 23:08:26 人评论次浏览
【论文笔记2】Long-Short Transformer: Efficient Transformers for Language and Vision

论文原文：https://arxiv.org/abs/2107.02192 论文笔记：百度网盘提取码：nzsi 1. Summary Contributions：（1）提出了一种长短时Transformer模型：Long-Short Transformer (Transformer-LS)： Short：利用滑动窗口获取短序列（局部）attentionLong：基于动态投影获取长…

2021/7/29 23:10:19 人评论次浏览
【论文笔记2】Long-Short Transformer: Efficient Transformers for Language and Vision

论文原文：https://arxiv.org/abs/2107.02192 论文笔记：百度网盘提取码：nzsi 1. Summary Contributions：（1）提出了一种长短时Transformer模型：Long-Short Transformer (Transformer-LS)： Short：利用滑动窗口获取短序列（局部）attentionLong：基于动态投影获取长…

2021/7/29 23:10:19 人评论次浏览
Linux系统搭建MMdetection(Swin-Transformer)环境

目录开始安装创建conda虚拟环境安装pytorch(重要）安装mmcv-full（极易出错）下载MMDetection仓库安装依赖官方教程网址，点击get_started官方教程地址，获取最新安装方式开始安装创建conda虚拟环境在控制台依次输入下列代码，创建名为open-mmlab的虚拟环境，并激…

2021/7/16 7:06:39 人评论次浏览
Linux系统搭建MMdetection(Swin-Transformer)环境

目录开始安装创建conda虚拟环境安装pytorch(重要）安装mmcv-full（极易出错）下载MMDetection仓库安装依赖官方教程网址，点击get_started官方教程地址，获取最新安装方式开始安装创建conda虚拟环境在控制台依次输入下列代码，创建名为open-mmlab的虚拟环境，并激…

2021/7/16 7:06:39 人评论次浏览
【李宏毅2020 ML/DL】P56 Transformer and its variant | New Architecture

我已经有两年 ML 经历，这系列课主要用来查缺补漏，会记录一些细节的、自己不知道的东西。已经有人记了笔记（很用心，强烈推荐）：https://github.com/Sakura-gh/ML-notes 本节内容综述本节课由助教纪伯翰讲解。本次演讲的标题为“New Architecture”。助教建议：一般，…

2021/6/22 23:27:14 人评论次浏览
Transformer的说明

本篇为《深度学习》系列博客的第十六篇，该系列博客主要记录深度学习相关知识的学习过程和自己的理解，方便以后查阅。原文地址：https://jalammar.github.io/illustrated-transformer/The Illustrated Transformer A High-Level LookBringing The Tensors Into The Pict…

2021/6/12 18:27:09 人评论次浏览
Transformer模型有多少种变体？复旦邱锡鹏教授团队做了全面综述

自 2017 年 6 月谷歌发布论文《Attention is All You Need》后，Transformer 架构为整个 NLP 领域带来了极大的惊喜。在诞生至今仅仅四年的时间里，Transformer 已经成为自然语言处理领域的主流模型，基于 Transformer 的预训练语言模型更是成为主流。随着时间的推移，Tr…

2021/6/11 18:45:13 人评论次浏览
Backbone - Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

文章目录 0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料： arxivgithub论文解读论文基本信息领域：Transformer作者单位：微软亚洲研究院发表时间：2021.3 一句话总结：将 hierarchical 引入 Transformer 1. 要…

2021/6/5 7:23:27 人评论次浏览
一点就分享系列（实践篇3-中篇）— 虽迟但到！全网首发？yolov5之“baseline修改小结“+“CV领域展开-Involution&&transformer&&cnn”

一点就分享系列（实践篇3-中篇）— yolov5之“修改总结以及baseline算子的分享" ** 说明上篇有很多朋友照搬了我的yaml结构，这里抱歉下也有原因是我的工作偏工程，真的研究时间有限！且温馨提示：如果耐心看完我的文章，应该了解我的本意是分享和大家一起交流，在V5…

2021/6/4 18:52:16 人评论次浏览
Hierarchical Learning for Generation with Long Source Sequences翻译

摘要当前序列到序列（seq2seq）模型的挑战之一是处理长序列，例如文档摘要和文档级机器翻译任务中的序列。这些任务需要模型在字符级别以及句子和段落级别进行推理。我们设计和研究了一种新的基于分层注意力Transformer的体系结构（HAT），该结构在几个序列到序列任务上的…

2021/6/4 18:25:00 人评论次浏览
effective_transformer

对字节跳动 effective_transformermer的理解transformer模型在self-attention的时候，需要用到统一输入batch的长度。但是其他模块不需要。因此，在其他模块（FF模块）可以移除pad token

2021/6/2 10:28:37 人评论次浏览
LeViT: aVision Transformer in ConvNet‘s Clothing for Fast in

摘要我们设计了一系列图像分类架构，可以在高速模式下优化精度和效率之间的平衡。我们的工作利用了基于注意力的体系结构的最新发现，这种体系结构在高度并行处理硬件上具有竞争力。我们重温了大量文献中关于卷积神经网络的原理，并将其用于transformer，特别是分辨率不断…

2021/5/30 10:23:02 人评论次浏览

共79记录«上一页 1 2 3 456 下一页»