当前位置：首页 > news >正文

【大规模语言模型：从理论到实践】Transformer中PositionalEncoder详解

news 来源：原创 2024/9/20 5:09:57

书籍链接：大规模语言模型：从理论到实践

第15页位置表示层代码详解
PositionalEncoder

1. 构造函数 `init()`

def __init__(self, d_model, max_seq_len=80):super().__init__()self.d_model = d_model  # 嵌入的维度（embedding dimension）

d_model: 表示输入词向量的维度。
max_seq_len: 表示句子的最大长度（最大序列长度）。
self.d_model: 保存词嵌入的维度。

创建 PE 矩阵

pe = torch.zeros(max_seq_len, d_model)
for pos in range(max_seq_len):for i in range(0, d_model, 2):pe[pos, i] = math.sin(pos / (10000 ** ((2 * i)/d_model)))pe[pos, i + 1] = math.cos(pos / (10000 ** ((2 * (i + 1))/d_model)))

这里，我们为所有可能的位置 pos 和维度 i 生成了位置编码矩阵 pe。编码规则是使用正弦和余弦函数来生成位置编码：

对于每个位置 pos，在每个嵌入维度 i 上：
- 奇数维度使用正弦函数 sin(pos / 10000^(2i/d_model))
- 偶数维度使用余弦函数 cos(pos / 10000^(2i/d_model))
这样做的好处是，正弦和余弦函数生成了一个平滑的周期性变化，使得位置编码具有一定的连续性和距离信息。

pe = pe.unsqueeze(0)
self.register_buffer('pe', pe)

pe.unsqueeze(0)：将 pe 的第一个维度扩展为 1，这是为了便于后续将其与输入批次结合在一起。
register_buffer：将 pe 作为一个不可训练的参数（Tensor），并注册为模型的一部分，以确保其在模型的 .cuda() 或 .to(device) 等操作时也能够转移到对应设备上。

2. 前向传播 `forward()`

def forward(self, x):x = x * math.sqrt(self.d_model)  # 对输入乘以嵌入维度的平方根，使得它们的值更大一些

这里的 x 是输入的词嵌入（word embeddings），即一个形状为 [batch_size, seq_len, d_model] 的张量。
x = x * math.sqrt(self.d_model)：这一行操作是为了放大嵌入值，使得单词嵌入值的范围更加合适。

seq_len = x.size(1)  # 获取序列长度（句子长度）
x = x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()

seq_len = x.size(1)：获取当前输入序列的长度。
self.pe[:, :seq_len]：根据当前序列长度，从 pe 中提取对应的位置信息（只取前 seq_len 个位置的编码）。
x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()：将位置信息 pe 添加到输入词嵌入中。requires_grad=False 表示不对位置编码进行梯度更新。

3. 详细分析`x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()`

这行代码在位置编码器中的作用是将预计算好的位置编码矩阵 pe 加到输入的词嵌入矩阵 x 上。这是为了在词嵌入的基础上加入位置信息，使模型能够同时使用词汇语义和位置信息。我们分解这句话的各个部分：

x = x + Variable(self.pe[:, :seq_len], requires_grad=False).cuda()

1. `self.pe[:, :seq_len]`

self.pe 是我们在初始化时生成的位置编码矩阵，其形状为 [1, max_seq_len, d_model]。
- 这里的 1 是 batch 维度，用来保持与输入张量 x 形状的一致性。
- max_seq_len 是句子可能的最大长度，表示可以编码的最大序列长度。
- d_model 是词嵌入的维度。
self.pe[:, :seq_len] 表示从 pe 矩阵中取出前 seq_len 个位置的编码。这个操作的作用是根据输入句子的实际长度（seq_len）来选择对应长度的位置信息。例如，如果 seq_len 是 50，则取出 pe 中前 50 行的编码。

2. `Variable(self.pe[:, :seq_len], requires_grad=False)`

Variable 是用于包裹张量，使其在反向传播中能够区分哪些需要计算梯度，哪些不需要。
- requires_grad=False 表示位置编码 pe 不参与梯度计算，位置编码是一个固定值，不会像模型权重那样进行训练或更新。

注意： 在较新的版本的 PyTorch 中，Variable 已经被整合到了 Tensor 中，不再需要显式使用 Variable。直接使用张量即可，它们本身已经具有 requires_grad 属性。

3. `.cuda()`

.cuda() 将张量移动到 GPU 上进行计算，确保模型的所有张量在同一个设备上。如果你使用的是 CPU，这一部分会报错或需要改成 .to(device)，以便适应不同设备。

4. `x + self.pe[:, :seq_len]`

x 是输入的词嵌入矩阵，形状为 [batch_size, seq_len, d_model]。
self.pe[:, :seq_len] 是位置编码矩阵，形状为 [1, seq_len, d_model]，即与 x 的第二、第三维度一致。
加法操作：x + self.pe[:, :seq_len] 表示将对应位置的词嵌入和位置编码逐元素相加。这个加法是一个广播操作，即 self.pe 的第一个维度为 1，自动扩展到与 x 的 batch_size 相同大小，然后再进行相加操作。