Transformer 学习笔记(ing)
创始人
2025-05-28 03:48:08

目录

1. 三大特征提取器RNN、CNN、Transformer

2. Transformer模型思想

2. 模型概述

3. Transformer优缺点

4. 应用场景


1. 三大特征提取器RNN、CNN、Transformer

1.1 RNN

本质特征:T时刻隐层状态的计算,依赖两个输入,一个是T时刻的句子输入单词Xt,这个不算特点,所有模型都要接收这个原始输入;关键的是另外一个输入,T时刻的隐层状态St还依赖T-1时刻的隐层状态S(t-1)的输出,形成了序列依赖关系,无法实现并行计算

发展:改进得到的SRU、SRNN并行能力依旧较差

1.2 CNN

1.3 Transformer

1.4 三者比较

  • 语义特征提取能力:Transformer显著超过RNN和CNN,RNN和CNN两者能力差不太多。
  • 长距离特征捕获能力:CNN极为显著地弱于RNN和Transformer,Transformer微弱优于RNN模型,但在比较远的距离上(主语谓语距离大于13),RNN微弱优于Transformer,所以综合看,可以认为Transformer和RNN在这方面能力差不太多,而CNN则显著弱于前两者。这部分我们之前也提到过,CNN提取长距离特征的能力收到其卷积核感受野的限制,实验证明,增大卷积核的尺寸,增加网络深度,可以增加CNN的长距离特征捕获能力。而对于Transformer来说,其长距离特征捕获能力主要受到Multi-Head数量的影响,Multi-Head的数量越多,Transformer的长距离特征捕获能力越强
  • 任务综合特征抽取能力:通常,机器翻译任务是对NLP各项处理能力综合要求最高的任务之一,要想获得高质量的翻译结果,对于两种语言的词法,句法,语义,上下文处理能力,长距离特征捕获等方面的性能要求都是很高的。从综合特征抽取能力角度衡量,Transformer显著强于RNN和CNN,而RNN和CNN的表现差不太多。
  • 并行计算能力:对于并行计算能力,并行计算是RNN的严重缺陷,而Transformer和CNN差不多。

2. Transformer模型思想

Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成。 作者采用Attention机制的原因是考虑到RNN(或者LSTM,GRU等)的计算是顺序的,RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题: 

(1)时间片 t 的计算依赖 t−1 时刻的计算结果,这样限制了模型的并行能力;
(2)顺序计算的过程中信息会丢失,尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题,但是对于特别长期的依赖现象,LSTM依旧无能为力。
  Transformer的提出解决了上面两个问题:

(1)首先它使用了Attention机制,将序列中的任意两个位置之间的距离是缩小为一个常量;
(2)其次它不是类似RNN的顺序结构,因此具有更好的并行性,符合现有的GPU框架。

2. 模型概述

3. Transformer优缺点

优点:并行能力强

缺点:对于长输入的任务,典型的比如篇章级别的任务(例如文本摘要),因为任务的输入太长,Transformer会有巨大的计算复杂度,导致速度会急剧变慢

在原文中没有提到缺点,是后来在Universal Transformers中指出的,主要是两点:

  (1)实践上:有些RNN轻易可以解决的问题transformer没做到,比如复制string,或者推理时碰到的sequence长度比训练时更长(因为碰到了没见过的position embedding)。

  (2)理论上:transformers不是computationally universal(图灵完备),这种非RNN式的模型是非图灵完备的的,无法单独完成NLP中推理、决策等计算问题(包括使用transformer的bert模型等等)。

4. 应用场景

参考链接:

1. 论文原文《Attention Is All You Need》

2. 台大李宏毅老师Transformer课程

3. 深入理解Transformer及其源码

4. 放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较 

5. 三大特征提取器 - RNN、CNN和Transformer 

相关内容

热门资讯

宗庆后18亿美元信托案再度反转... 来源:家办标准研究院宗庆后给三位非婚生子女留下的18亿美元离岸信托资产,因为香港法院的两次保全令,正...
历时逾两年,湖南裕能47.88... 本报(chinatimes.net.cn)记者胡雅文 北京报道12月11日,湖南裕能新能源电池材料股...
平安好医生:穿越周期的确定性 导语:在投资者眼中,当下的平安好医生正站在一个罕见的“三重共振”点上。在资本市场,聪明钱(Smart...
基金销售考核大变革:投资者盈亏... 新下发的《公开募集证券投资基金销售行为规范(征求意见稿)》要求,基金销售业务绩效考核指标应当包括基金...
从N7“喜忧参半”到N6“背水... 从某种程度上讲,N7证明了东风日产拥有“破局”的勇气和产品定义能力,而N6则是检验它是否拥有“深耕”...