1 Encoder

Encoder 的主要作用是接收一系列输入向量，并输出对应的向量序列。可以使用 RNN 或 CNN 实现编码器，但在 Transformer 中，采用了自注意力机制（Self-Attention）来实现：

Encoder 由多个相同的块（block）组成，每个块内部包含多个层（layer），其结构如下：

每个块的输出作为下一个块的输入，最终生成的输出为一个向量序列。

Transformer 的设计：在上面的结构基础上加入了 residual 和 normalization：

最终的 encoder 架构：

2 Decoder

Decoder 首先接收一个特殊符号，表示开始（start token），然后根据这个符号输出与词汇表大小相同的向量。选择概率最大的词作为最终输出，同时将其作为 Decoder 的新输入。

encoder VS decoder :

Encoder 和 Decoder 的结构存在关键差异：

需要为 decoder 设置一个结束符。

Decoder，先输入一个 start 开始符，经过 masked self-attention，输出一个向量，这个向量与 Encoder 输出进行交叉注意力（Cross Attention）计算：：

模型输出和实际内容进行比对，计算 cross entropy

训练的时候，给 decoder 输入正确的答案（Teacher Forcing）