当前位置：首页 > news >正文

NLP:BERT的介绍

news 来源：原创 2024/9/28 23:09:57

1. BERT

1.1 Transformer

Transformer架构是一种基于自注意力机制(self-attention)的神经网络架构，它代替了以前流行的循环神经网络和长短期记忆网络，已经应用到多个自然语言处理方向。
Transformer架构由两个主要部分组成：编码器(Encoder)和解码器(Decoder)。编码器和解码器均是由多个层(layer)堆叠而成，其中每层均由多个子层组成：比如自注意力机制和前馈神经网络。(本篇先不介绍解码器部分。)
在这里插入图片描述

1.1.1 编码器

Transformer中的编码器的作用是提取原句中的特征值。Transformer的编码器不止一个，而是由一组 $N$ 个编码器串联而成。一个编码器的输出作为下一个编码器的输入。编码器由两部分组成：多头注意力层和前馈网络层。

1.1.1.1 多头注意力层

要理解Transformer的多头注意力层，就必须先理解Transformer中的自注意力机制(self-attention)。Transformer中的自注意力机制一种能够使模型在处理序列数据时，通过计算序列中每个元素与其他所有元素之间的相关性，并据此对元素进行加权求和，从而生成包含所有元素信息但更侧重于重要部分的表示的机制。多头注意力机制就是自注意力机制的扩展，它通过并行计算多个自注意力头来捕捉不同子空间中的信息，最终将这些头的输出进行拼接和线性变换。
自注意力机制的计算过程如下图。其中 $Q$ 为查询矩阵、 $K$ 为键矩阵、 $V$ 为值矩阵。
在这里插入图片描述

1.1.1.2 位置编码

Transformer中的位置编码用于为输入序列中的每个词提供位置信息，以弥补模型中缺少顺序感的缺陷，使模型能够捕捉词汇的相对顺序和位置信息。

1.1.1.3 前馈网络层

Transformer架构中的前馈网络由两个有ReLU激活函数的全连接层组成。前馈网络的参数在句子的不同位置上是相同的，但在不同的编码器模块上是不同的。

1.1.1.4 叠加和归一化组件

叠加和归一组件实际上包含一个残差连接与层的归一化。层的归一化可以防止每层的值剧烈变化，从而提高了模型的训练速度。

至此，完整的编码器框架如下：
在这里插入图片描述

1.2 BERT模型

BERT(Bidirectional Encoder Representations from Transformers，多Transformer的双向编码器表示法)模型是由谷歌发布的预训练语言模型。

1.2.1 预训练的BERT

谷歌对外公开了其预训练的BERT模型，用户可以直接下载使用。其下载地址如下：https://huggingface.co/google-bert
在这里插入图片描述
BERT模型名称中的的uncased表示不区分大小写，cased表示区分大小写。在不区分大小写时，所有标记都转化为小写；在区分大小写时，标记大小写不变，直接用于训练。不区分大小写的模型是最常用的模型，但如果我们正在执行某些任务，比如命名实体识别(named entity recognition, NER)，则必须保留大小写，使用区分大小写的模型。

1.2.2 Bert架构

完整的BERT架构可以分为三大部分：输入层、中间层(Transformer编码器层)和输出层。这里重点介绍输入层和输出层。

1.2.2.1 输入层

输入层将文本转换为 BERT 能够处理的形式，主要包括以下三个部分：

Token Embeddings: 将输入的每个词或子词(通过WordPiece分词)映射为对应的词向量;
Segment Embeddings：会分别给第一个句子的所有Token都分配0作为ID，用来标记它们属于第一个句子。给第二个句子的所有Token都分配1作为ID，用来标记它们属于第二个句子。
Position Embeddings：因为BERT不使用传统的RNN或CNN结构，而是基于自注意力机制，所以需要显式添加位置编码，表示词的相对位置，帮助模型捕捉词序信息。