当前位置: 首页 > news >正文

齐普夫定律在循环神经网络中的语言模型的应用

目录

  • 齐普夫定律解释
    • 公式解释
    • 图与公式的关系
    • 代码与图的分析
    • 结论
  • 使用对数表达方式的原因
    • 1. 线性化非线性关系
    • 2. 方便数据可视化和分析
    • 3. 降低数值范围
    • 4. 方便参数估计
    • 公式详细解释
    • 结论

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
来自:https://zh-v2.d2l.ai/chapter_recurrent-neural-networks/language-models-and-dataset.html

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

齐普夫定律解释

齐普夫定律(Zipf’s Law)是一种描述自然语言中单词频率分布的经验法则,它指出在一个文本或语料库中,单词的频率与其出现的排名成反比关系。具体来说,频率最高的单词出现的次数最多,排名第二的单词出现的次数大约是最高频单词的一半,排名第三的单词出现次数是最高频单词的三分之一,依此类推。

公式解释

齐普夫定律的数学表达式可以表示为:

n i ∝ 1 i α n_i \propto \frac{1}{i^\alpha} niiα1

其中, n i n_i ni 表示第 ( i ) 个单词的频率,( i ) 是该单词的排名,( \alpha ) 是一个常数。为了便于理解,这个公式可以变形为:

[ n_i = \frac{C}{i^\alpha} ]

其中 ( C ) 是一个归一化常数。

在图8.3.7和8.3.8中,这个公式被进一步转化为对数形式,以便在对数坐标系中表现出线性关系:

[ \log n_i = -\alpha \log i + c ]

这里,( \log n_i ) 是单词频率的对数,( \log i ) 是单词排名的对数,( \alpha ) 是斜率,( c ) 是截距。

图与公式的关系

在图中绘制了词频与排名的对数图。通过对图像进行对数变换,可以观察到频率与排名之间的关系是否遵循齐普夫定律。如果单词频率与排名在对数坐标系中呈现一条直线,这意味着词频与排名确实遵循齐普夫定律,即:

[ \log n_i = -\alpha \log i + c ]

从图中我们可以看到,词频分布在对数坐标系中近似为一条直线,这验证了齐普夫定律的正确性。

代码与图的分析

从代码和图中,我们可以看到以下几个步骤:

  1. 统计词频:读取文本数据并进行分词,统计每个单词的出现频率。
  2. 排序:根据单词的出现频率对单词进行排序,得到每个单词的排名。
  3. 绘制图形:在对数坐标系中绘制单词的频率和排名的关系图。

代码示例如下:

import random
import torch
from d2l import torch as d2ltokens = d2l.tokenize(d2l.read_time_machine())
corpus = [token for line in tokens for token in line]
vocab = d2l.Vocab(corpus)
vocab.token_freqs[:10]freqs = [freq for token, freq in vocab.token_freqs]
d2l.plot(freqs, xlabel='token: x', ylabel='frequency: n(x)',xscale='log', yscale='log')

上面的代码统计了文本数据中的词频,并在对数坐标系中绘制了词频图。

结论

通过以上分析,我们可以理解齐普夫定律的基本概念及其数学表示方式,并通过代码和图形验证了齐普夫定律在自然语言词频分布中的应用。具体地,通过观察词频和排名在对数坐标系中的线性关系,我们可以确认自然语言中的单词频率确实遵循齐普夫定律。

在这里插入图片描述
在这里插入图片描述

使用对数表达方式的原因

使用对数表达方式([ \log n_i = -\alpha \log i + c ])的原因主要有以下几点:

1. 线性化非线性关系

齐普夫定律本身是一个非线性关系:

[ n_i \propto \frac{1}{i^\alpha} ]

通过取对数,两边都取对数后变为线性关系:

[ \log n_i = -\alpha \log i + c ]

这使得我们可以用直线来描述这个关系,而直线在统计学和数据分析中更容易处理和理解。

2. 方便数据可视化和分析

对数坐标系能够更直观地展示数据的幂律分布特性。在对数坐标系中,幂律分布的数据点会呈现为一条直线,这使得我们可以更容易地识别和验证数据是否符合齐普夫定律。

在图中,横轴(单词排名)和纵轴(单词频率)都取对数,如果数据点近似排列成一条直线,就说明词频分布符合齐普夫定律。这种图形化表示使得观察和分析数据的分布规律变得直观和简单。

3. 降低数值范围

自然语言中的单词频率差异很大,频率最高的单词和频率最低的单词可能相差几个数量级。直接使用原始数据进行分析和可视化会遇到数值范围过大的问题,导致图形难以阅读和解释。而通过取对数,可以压缩数据的范围,使得不同频率的单词在图中更紧凑地展示,便于比较和分析。

4. 方便参数估计

在对数空间中,线性回归可以用来估计幂律分布中的参数。通过线性回归,我们可以得到斜率 ( -\alpha ) 和截距 ( c ),进而估计出原始幂律分布的参数。这在统计建模和参数估计中非常实用。

公式详细解释

原始齐普夫定律公式:

[ n_i \propto \frac{1}{i^\alpha} ]

取对数后变为:

[ \log n_i = \log \left( \frac{C}{i^\alpha} \right) ]

其中 ( C ) 是归一化常数,进一步分解:

[ \log n_i = \log C - \alpha \log i ]

将 ( \log C ) 记作 ( c )(因为 ( C ) 是常数,所以 ( \log C ) 也是常数),最终得到:

[ \log n_i = -\alpha \log i + c ]

结论

通过使用对数表达方式,我们将非线性的幂律关系转化为线性关系,使得数据可视化、分析和参数估计变得更加直观和方便。这种方法不仅简化了分析过程,也增强了结果的解释力和可视化效果。

相关文章:

  • 6.17作业
  • Spring Boot高级配置与自定义Starter详解
  • 哪个充电宝牌子好用又实惠?盘点四大平价充电宝分享
  • YOLOv10涨点改进:改进检测头(Partial_C_v10Detect)检测头结构创新,实现涨点
  • 微信小程序录音机源代码
  • 中标新领域!亚信科技+用友网络,将助力广西某市城投集团玩转“人事”
  • 【Linux】版本
  • MySQL中的一行记录是怎么存储的
  • 【QT5】<重点> QT串口编程
  • Java 和 Kotlin Lambda 表达式详解
  • vue简介实例
  • 第二十七章HTML.CSS综合案例(三)
  • react中useEffect函数的详细用法
  • Unity3D MMORPG加载背包配置表详解
  • C#中数组ProtoBuf使用问题
  • [译]CSS 居中(Center)方法大合集
  • docker容器内的网络抓包
  • es6要点
  • Essential Studio for ASP.NET Web Forms 2017 v2,新增自定义树形网格工具栏
  • Git 使用集
  • interface和setter,getter
  • Java 9 被无情抛弃,Java 8 直接升级到 Java 10!!
  • Java 内存分配及垃圾回收机制初探
  • Java面向对象及其三大特征
  • leetcode386. Lexicographical Numbers
  • Python学习之路16-使用API
  • 测试如何在敏捷团队中工作?
  • 搭建gitbook 和 访问权限认证
  • 漫谈开发设计中的一些“原则”及“设计哲学”
  • 浅谈JavaScript的面向对象和它的封装、继承、多态
  • 实现菜单下拉伸展折叠效果demo
  • 算法---两个栈实现一个队列
  • 源码安装memcached和php memcache扩展
  • 自制字幕遮挡器
  • ​【数据结构与算法】冒泡排序:简单易懂的排序算法解析
  • ​configparser --- 配置文件解析器​
  • ​TypeScript都不会用,也敢说会前端?
  • #QT(QCharts绘制曲线)
  • (1) caustics\
  • (3)医疗图像处理:MRI磁共振成像-快速采集--(杨正汉)
  • (C#)获取字符编码的类
  • (PADS学习)第二章:原理图绘制 第一部分
  • (备忘)Java Map 遍历
  • (每日一问)设计模式:设计模式的原则与分类——如何提升代码质量?
  • (三十)Flask之wtforms库【剖析源码上篇】
  • (三维重建学习)已有位姿放入colmap和3D Gaussian Splatting训练
  • (转)eclipse内存溢出设置 -Xms212m -Xmx804m -XX:PermSize=250M -XX:MaxPermSize=356m
  • (轉貼) UML中文FAQ (OO) (UML)
  • **PyTorch月学习计划 - 第一周;第6-7天: 自动梯度(Autograd)**
  • ./和../以及/和~之间的区别
  • .chm格式文件如何阅读
  • .env.development、.env.production、.env.staging
  • .NET Core 发展历程和版本迭代
  • .NET Core、DNX、DNU、DNVM、MVC6学习资料
  • .Net 访问电子邮箱-LumiSoft.Net,好用