网站首页 站内搜索

搜索结果

查询Tags标签: transformermer,共有 1条记录
  • effective_transformer

    对字节跳动 effective_transformermer的理解transformer模型在self-attention的时候,需要用到统一输入batch的长度。但是其他模块不需要。因此,在其他模块(FF模块)可以移除pad token

    2021/6/2 10:28:37 人评论 次浏览
扫一扫关注最新编程教程