Transformer 学习笔记(ing)
创始人
2025-05-28 03:48:08

目录

1. 三大特征提取器RNN、CNN、Transformer

2. Transformer模型思想

2. 模型概述

3. Transformer优缺点

4. 应用场景


1. 三大特征提取器RNN、CNN、Transformer

1.1 RNN

本质特征:T时刻隐层状态的计算,依赖两个输入,一个是T时刻的句子输入单词Xt,这个不算特点,所有模型都要接收这个原始输入;关键的是另外一个输入,T时刻的隐层状态St还依赖T-1时刻的隐层状态S(t-1)的输出,形成了序列依赖关系,无法实现并行计算

发展:改进得到的SRU、SRNN并行能力依旧较差

1.2 CNN

1.3 Transformer

1.4 三者比较

  • 语义特征提取能力:Transformer显著超过RNN和CNN,RNN和CNN两者能力差不太多。
  • 长距离特征捕获能力:CNN极为显著地弱于RNN和Transformer,Transformer微弱优于RNN模型,但在比较远的距离上(主语谓语距离大于13),RNN微弱优于Transformer,所以综合看,可以认为Transformer和RNN在这方面能力差不太多,而CNN则显著弱于前两者。这部分我们之前也提到过,CNN提取长距离特征的能力收到其卷积核感受野的限制,实验证明,增大卷积核的尺寸,增加网络深度,可以增加CNN的长距离特征捕获能力。而对于Transformer来说,其长距离特征捕获能力主要受到Multi-Head数量的影响,Multi-Head的数量越多,Transformer的长距离特征捕获能力越强
  • 任务综合特征抽取能力:通常,机器翻译任务是对NLP各项处理能力综合要求最高的任务之一,要想获得高质量的翻译结果,对于两种语言的词法,句法,语义,上下文处理能力,长距离特征捕获等方面的性能要求都是很高的。从综合特征抽取能力角度衡量,Transformer显著强于RNN和CNN,而RNN和CNN的表现差不太多。
  • 并行计算能力:对于并行计算能力,并行计算是RNN的严重缺陷,而Transformer和CNN差不多。

2. Transformer模型思想

Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。 作者采用Attention机制的原因是考虑到RNN(或者LSTM,GRU等)的计算是顺序的,RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题: 

(1)时间片 t 的计算依赖 t−1 时刻的计算结果,这样限制了模型的并行能力;
(2)顺序计算的过程中信息会丢失,尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题,但是对于特别长期的依赖现象,LSTM依旧无能为力。
  Transformer的提出解决了上面两个问题:

(1)首先它使用了Attention机制,将序列中的任意两个位置之间的距离是缩小为一个常量;
(2)其次它不是类似RNN的顺序结构,因此具有更好的并行性,符合现有的GPU框架。

2. 模型概述

3. Transformer优缺点

优点:并行能力强

缺点:对于长输入的任务,典型的比如篇章级别的任务(例如文本摘要),因为任务的输入太长,Transformer会有巨大的计算复杂度,导致速度会急剧变慢

在原文中没有提到缺点,是后来在Universal Transformers中指出的,主要是两点:

  (1)实践上:有些RNN轻易可以解决的问题transformer没做到,比如复制string,或者推理时碰到的sequence长度比训练时更长(因为碰到了没见过的position embedding)。

  (2)理论上:transformers不是computationally universal(图灵完备),这种非RNN式的模型是非图灵完备的的,无法单独完成NLP中推理、决策等计算问题(包括使用transformer的bert模型等等)。

4. 应用场景

参考链接:

1. 论文原文《Attention Is All You Need》

2. 台大李宏毅老师Transformer课程

3. 深入理解Transformer及其源码

4. 放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较 

5. 三大特征提取器 - RNN、CNN和Transformer 

相关内容

热门资讯

金宏气体:目前暂无电子级六氟化... 新京报贝壳财经讯 5月14日,金宏气体在互动平台表示,公司目前暂无电子级六氟化钨产品。编辑 王进雨
从冻结账户到先行赔付,A股投资... “5·15”投资者保护日临近,多个上市公司重大违法案件被查处,先行赔付、集体诉讼等陆续启动,A股市场...
双线作战的阿里,利润快没了 阿... 一个百亿ARR指引,救了一份大幅低于预期的财报。定焦One(dingjiaoone)原创作者 | 王...
浙江稠州商业银行助推“银发族”... 面对人口结构变化带来的“银色浪潮”,适老化改造正从“小众话题”迈向“全民共识”,成为托举家庭幸福的民...
腾讯和苹果,都在等待秋天 腾讯... “原来一年前我们以为上了船,后来发现那个船漏水了,现在感觉站上去了,还坐不下去,还是希望船速能快一点...