Transformer 学习笔记（ing）_股票证券

Transformer 学习笔记（ing）

创始人

2025-05-28 03:48:08

1. 三大特征提取器RNN、CNN、Transformer

2. Transformer模型思想

2. 模型概述

3. Transformer优缺点

4. 应用场景

1. 三大特征提取器RNN、CNN、Transformer

1.1 RNN

本质特征：T时刻隐层状态的计算，依赖两个输入，一个是T时刻的句子输入单词Xt，这个不算特点，所有模型都要接收这个原始输入；关键的是另外一个输入，T时刻的隐层状态St还依赖T-1时刻的隐层状态S(t-1)的输出，形成了序列依赖关系，无法实现并行计算

发展：改进得到的SRU、SRNN并行能力依旧较差

1.2 CNN

1.3 Transformer

1.4 三者比较

语义特征提取能力：Transformer显著超过RNN和CNN，RNN和CNN两者能力差不太多。
长距离特征捕获能力：CNN极为显著地弱于RNN和Transformer，Transformer微弱优于RNN模型，但在比较远的距离上（主语谓语距离大于13），RNN微弱优于Transformer，所以综合看，可以认为Transformer和RNN在这方面能力差不太多，而CNN则显著弱于前两者。这部分我们之前也提到过，CNN提取长距离特征的能力收到其卷积核感受野的限制，实验证明，增大卷积核的尺寸，增加网络深度，可以增加CNN的长距离特征捕获能力。而对于Transformer来说，其长距离特征捕获能力主要受到Multi-Head数量的影响，Multi-Head的数量越多，Transformer的长距离特征捕获能力越强
任务综合特征抽取能力：通常，机器翻译任务是对NLP各项处理能力综合要求最高的任务之一，要想获得高质量的翻译结果，对于两种语言的词法，句法，语义，上下文处理能力，长距离特征捕获等方面的性能要求都是很高的。从综合特征抽取能力角度衡量，Transformer显著强于RNN和CNN，而RNN和CNN的表现差不太多。
并行计算能力：对于并行计算能力，并行计算是RNN的严重缺陷，而Transformer和CNN差不多。

2. Transformer模型思想

Transformer中抛弃了传统的CNN和RNN，整个网络结构完全是由Attention机制组成。作者采用Attention机制的原因是考虑到RNN（或者LSTM，GRU等）的计算是顺序的，RNN相关算法只能从左向右依次计算或者从右向左依次计算，这种机制带来了两个问题：　

（1）时间片 t 的计算依赖 t−1 时刻的计算结果，这样限制了模型的并行能力；
（2）顺序计算的过程中信息会丢失，尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题，但是对于特别长期的依赖现象，LSTM依旧无能为力。
　　Transformer的提出解决了上面两个问题：

（1）首先它使用了Attention机制，将序列中的任意两个位置之间的距离是缩小为一个常量；
（2）其次它不是类似RNN的顺序结构，因此具有更好的并行性，符合现有的GPU框架。

2. 模型概述

3. Transformer优缺点

优点：并行能力强

缺点：对于长输入的任务，典型的比如篇章级别的任务（例如文本摘要），因为任务的输入太长，Transformer会有巨大的计算复杂度，导致速度会急剧变慢

在原文中没有提到缺点，是后来在Universal Transformers中指出的，主要是两点：

　　（1）实践上：有些RNN轻易可以解决的问题transformer没做到，比如复制string，或者推理时碰到的sequence长度比训练时更长（因为碰到了没见过的position embedding）。

　　（2）理论上：transformers不是computationally universal(图灵完备)，这种非RNN式的模型是非图灵完备的的，无法单独完成NLP中推理、决策等计算问题（包括使用transformer的bert模型等等）。

4. 应用场景

参考链接：

1. 论文原文《Attention Is All You Need》

2. 台大李宏毅老师Transformer课程

3. 深入理解Transformer及其源码

4. 放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较

5. 三大特征提取器 - RNN、CNN和Transformer

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：实测分享“情怀镇江到底是不是有透视挂吗”原来确实有挂

下一篇：今日分享.新老夫子拼三张有挂吗.必胜开挂神器!

Transformer 学习笔记（ing）

1. 三大特征提取器RNN、CNN、Transformer

1.1 RNN

1.2 CNN

1.3 Transformer

1.4 三者比较

2. Transformer模型思想

2. 模型概述

3. Transformer优缺点

4. 应用场景

相关内容

热门资讯