简介

Transformer是由Google在2017年提出的一种新型神经网络架构,它在论文《Attention Is All You Need》中首次亮相。这个模型彻底改变了自然语言处理(NLP)领域,成为了现代大型语言模型(如GPT、BERT)的基础架构。

Transformer的核心思想

1. 注意力机制(Attention Mechanism)

Transformer的核心创新在于完全基于注意力机制,摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)。注意力机制允许模型在处理序列中的每个位置时,都能直接关注到序列中的任何其他位置。

2. 自注意力(Self-Attention)

自注意力是Transformer的关键组件,它允许序列中的每个元素都能与序列中的所有其他元素建立直接连接,从而捕获长距离依赖关系。

Transformer架构详解

整体架构

Transformer采用编码器-解码器(Encoder-Decoder)结构:

  • 编码器(Encoder):将输入序列转换为连续的表示
  • 解码器(Decoder):根据编码器的输出生成目标序列

核心组件

1. 多头注意力(Multi-Head Attention)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 多头注意力的基本思想
def multi_head_attention(Q, K, V, num_heads):
# 将Q、K、V分割成多个头
head_dim = d_model // num_heads

# 并行计算多个注意力头
attention_outputs = []
for i in range(num_heads):
q_head = Q[:, :, i*head_dim:(i+1)*head_dim]
k_head = K[:, :, i*head_dim:(i+1)*head_dim]
v_head = V[:, :, i*head_dim:(i+1)*head_dim]

attention_output = scaled_dot_product_attention(q_head, k_head, v_head)
attention_outputs.append(attention_output)

# 连接所有头的输出
concatenated = concat(attention_outputs)
return linear_projection(concatenated)

2. 位置编码(Positional Encoding)

由于Transformer没有循环结构,需要位置编码来提供序列中位置信息:

1
2
3
4
5
6
7
8
9
10
11
12
13
def positional_encoding(seq_len, d_model):
pos = np.arange(seq_len)[:, np.newaxis]
i = np.arange(d_model)[np.newaxis, :]

angle_rates = 1 / np.power(10000, (2 * (i // 2)) / d_model)
angle_rads = pos * angle_rates

# 偶数索引使用sin,奇数索引使用cos
pos_encoding = np.zeros((seq_len, d_model))
pos_encoding[:, 0::2] = np.sin(angle_rads[:, 0::2])
pos_encoding[:, 1::2] = np.cos(angle_rads[:, 1::2])

return pos_encoding

3. 前馈神经网络(Feed Forward Network)

1
2
3
4
5
def feed_forward_network(x, d_ff, d_model):
# FFN(x) = max(0, xW1 + b1)W2 + b2
hidden = relu(linear(x, d_ff))
output = linear(hidden, d_model)
return output

4. 残差连接和层归一化

每个子层都使用残差连接和层归一化:

1
2
def sublayer_connection(x, sublayer):
return layer_norm(x + sublayer(x))

Transformer的优势

1. 并行化计算

  • 不像RNN需要顺序处理,Transformer可以并行计算所有位置
  • 大大提高了训练效率

2. 长距离依赖

  • 自注意力机制允许直接建立任意两个位置之间的连接
  • 有效解决了长距离依赖问题

3. 可解释性

  • 注意力权重提供了模型决策的可视化解释
  • 可以看到模型关注输入的哪些部分

实际应用

1. 自然语言处理

  • BERT:基于Transformer编码器的预训练模型
  • GPT系列:基于Transformer解码器的生成模型
  • T5:Text-to-Text Transfer Transformer

2. 计算机视觉

  • Vision Transformer (ViT):将图像分割成patches应用Transformer
  • DETR:用于目标检测的Transformer

3. 其他领域

  • 蛋白质结构预测(AlphaFold)
  • 音乐生成
  • 代码生成

实现示例

以下是一个简化的Transformer块实现:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import torch
import torch.nn as nn
import torch.nn.functional as F

class TransformerBlock(nn.Module):
def __init__(self, d_model, num_heads, d_ff, dropout=0.1):
super().__init__()
self.attention = nn.MultiheadAttention(d_model, num_heads, dropout=dropout)
self.norm1 = nn.LayerNorm(d_model)
self.norm2 = nn.LayerNorm(d_model)

self.feed_forward = nn.Sequential(
nn.Linear(d_model, d_ff),
nn.ReLU(),
nn.Linear(d_ff, d_model)
)
self.dropout = nn.Dropout(dropout)

def forward(self, x, mask=None):
# 多头自注意力
attn_output, _ = self.attention(x, x, x, attn_mask=mask)
x = self.norm1(x + self.dropout(attn_output))

# 前馈网络
ff_output = self.feed_forward(x)
x = self.norm2(x + self.dropout(ff_output))

return x

训练技巧

1. 学习率调度

使用Warm-up策略,先增加后减少学习率:

1
2
def get_lr(step, d_model, warmup_steps):
return d_model ** (-0.5) * min(step ** (-0.5), step * warmup_steps ** (-1.5))

2. 标签平滑

减少过拟合,提高泛化能力:

1
2
3
4
5
6
7
8
class LabelSmoothingLoss(nn.Module):
def __init__(self, smoothing=0.1):
super().__init__()
self.smoothing = smoothing

def forward(self, pred, target):
# 实现标签平滑逻辑
pass

局限性和改进

局限性

  1. 计算复杂度:自注意力的复杂度为O(n²)
  2. 内存需求:对于长序列需要大量内存
  3. 位置编码:固定的位置编码可能限制模型能力

改进方向

  1. Sparse Attention:减少计算复杂度
  2. Linear Attention:线性复杂度的注意力机制
  3. 相对位置编码:更灵活的位置表示

总结

Transformer架构的提出是深度学习历史上的一个重要里程碑。它不仅在自然语言处理领域取得了巨大成功,还扩展到了计算机视觉、语音识别等多个领域。理解Transformer的工作原理对于深入学习现代AI技术至关重要。

随着技术的不断发展,我们可以期待看到更多基于Transformer的创新应用和改进方案,推动人工智能技术的进一步发展。


参考资料:

  • Vaswani, A., et al. (2017). Attention is all you need. NIPS.
  • The Illustrated Transformer - Jay Alammar
  • Transformers: State-of-the-art Natural Language Processing