当前位置：首页 > news >正文

三、N元语法（N-gram）

news 来源：原创 2024/5/20 15:46:30

为了弥补 One-Hot 独热编码的维度灾难和语义鸿沟以及 BOW 词袋模型丢失词序信息和稀疏性这些缺陷，将词表示成一个低维的实数向量，且相似的词的向量表示是相近的，可以用向量之间的距离来衡量相似度。

N-gram 统计语言模型是用来计算句子概率的概率模型，即某一个词的出现由其前面每一个词出现的概率决定。假设一个长度为N的句子，句子 S=(X1,...,XN)，那么这个句子的概率（也就是这 N 个词共同出现的概率）如下：

$P(S=(X1,..., XN))=P(X1)P(X2|X1)...P(XN)|X1...X(N-1))$

N的取值	名称	含义
1	Unigram	当前词出现的概率仅仅与自身相关
2	Bigram	当前词出现的概率仅仅与前面的1个词相关
3	Trigram	当前词出现的概率仅仅与前面的2个词相关
...	...	...
N	N-gram	当前词出现的概率仅仅与前面的(N-1)个词相关

例如，长度为4的序列X1, X2, X3, X4 在Ungram、Bigram和Trigram中的概率分别为：

P(X1, X2, X3, X4) = P(X1)P(X2)P(X3)P(X4)

P(X1, X2, X3, X4) = P(X1)P(X2|X1)P(X3|X2)P(X4|X3)

P(X1, X2, X3, X4) = P(X1)P(X2|X1)P(X3|X1, X2)P(X4|X2, X3)

随着 N 的取值越大，N-gram 模型在理论上越精确，但是也越复杂，需要的计算量和训练语料数据量也就越大，并且精度提升的不够明显，所以在实际的任务中很少使用 n＞3 的语言模型。

例如，使用一个含有三句话的微型语料库，而且需要在这三句话的前后分别加上开始符<BOS>和结束符 <EOS>（目的是为了让以某一词为条件的所有概率加起来是 1，从而保证这确实是一个合法的概率分布）接下来我们来看语料：
<BOS>我爱你<EOS>
<BOS>我爱她<EOS>
<BOS>她爱你<EOS>
BOS：Begining Of Sequence，代表序列开始。 EOS：End Of Sequence，代表序列结束。

利用 Bi-gram 计算各个词出现的概率：

单词 "<BOS>" 出现的次数：3次
单词 "我" 出现的次数：2次
单词 "爱" 出现的次数：3次
单词 "你" 出现的次数：2次
单词 "她" 出现的次数：2次
单词 "<EOS>" 出现的次数：3次
二元组 "我爱" 出现的次数：2次
二元组 "爱你" 出现的次数：2次
二元组 "她爱" 出现的次数：1次
二元组 "爱她" 出现的次数：1次
二元组 "<BOS>我" 出现的次数：2次
二元组 "<BOS>她" 出现的次数：1次
二元组 "你<EOS>" 出现的次数：2次
二元组 "她<EOS>" 出现的次数：1次

利用 Bi-gram 计算相邻两个词先后出现的概率：

P(我|<BOS>) = Count(<BOS>我) / Count(<BOS>) = 2/3；
P(她|<BOS>) = Count(<BOS>她) / Count(<BOS>) = 1/3；
P(爱|我) = Count(我爱) / Count(我) = 1；
P(<EOS>|你) = Count(你<EOS>) / Count(你) = 1；
P(你|爱) = Count(爱你) / Count(爱) = 2/3；
P(她|爱) = Count(爱她) / Count(爱) = 1/3；
P(爱|她) = Count(她爱) / Count(她) = 1/2；
P(<EOS>|她) = Count(她<EOS>) / Count(她) = 1/2.

这样我们就完成了 Bi-gram 各个概率值的计算，整个句子的概率就是挑选出对应的概率相乘即可。

P(<BOS>我爱你<EOS>) = P(我|<BOS>) × P(爱|我) × P(你|爱) × P(<EOS>|你) = 2/3 × 1 × 2/3 ×1 = 4/9
P(<BOS>我爱她<EOS>) = P(我|<BOS>) × P(爱|我) × P(她|爱) × P(<EOS>|你) = 2/3 × 1 × 1/3 ×1 = 2/9
P(<BOS>她爱你<EOS>) = P(她|<BOS>) × P(爱|她) × P(你|爱) × P(<EOS>|你) = 1/3 × 1 × 1 × 2/3 = 2/9