当前位置: 首页 > news >正文

NLP模型笔记2022-04:一个简单案例理解语言模型预测句子的原理

在这里插入图片描述

所谓语言模型,就是利用数学的方法描述语言规律。而统计语言模型,就是用句子S出现的概率P(S)来刻画句子的合理性(而不进行语言学分析处理),这是统计自然语言处理的基础模型。

本次使用马尔科夫模型进行理解:

假设句子S=w1,w2,…,wn,其中,wi可以暂时看作句子中的第i个词(在后面会进行具体介绍)。由于自然语言是上下文相关的信息传递方式,可以很自然地讲句子S出现的概率定义如下:

P(S) = P(w1)P(w2|w1)...P(wn|w1,w2,...wn-1)

特别地,当i=1时,P(w1|w0) = P(w1),概率定义与条件概率相同。

在统计语言模型中,输入是句子S,输出是句子S的概率P(S),模型参数是各个P,即,P(wi|w1,w2,…,wi-1)。

wi被称为统计基元,可以是字、词、短语、词类等等,通常以“词”代替;

wi由w1,w2,…wi-1决定,由特定一组w1,w2,…wi-1构成的一个序列称为wi的历史。

参考链接:https://blog.csdn.net/echoKangYL/article/details/86626714

进一步补充:
假设任意一个词wi出现的概率只与它前面的wi-1有关,将原模型简化为二元模型:

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 呵呵,添加照片成功
  • NLP模型笔记2022-05:实体识别与句法分析实战
  • 什么是博客?
  • 【博士论文】使用压缩表示的 中文分词词性标注研究
  • python使用技巧(二十八):判断并计算列表不同数据类型的基数
  • 几个logo多多和免费计数器的网址
  • NLP模型笔记2022-06:pyhanlp加载训练完的语言模型路径进行预测
  • 一位老工程师的终告 (推荐)
  • NLP模型笔记2022-07:一种联合中文分词和依存分析的统一模型训练CTB5数据集【论文复现+源码+数据集下载】
  • 高级程序员考试经验(转载)
  • NLP模型笔记2022-08:hanlp模型API使用方法
  • [界面]程序启动欢迎窗体(Splash) 制作方法(附原码)
  • NLP模型笔记2022-09:hanlp所有预训练模型API接口使用
  • NLP模型笔记2022-10:nlp句法分析模型评价标准UAS/LAS
  • Visual C++ MFC 一文说尽 (推荐)(很长,没耐心就不要看了)
  • 【翻译】babel对TC39装饰器草案的实现
  • Android 控件背景颜色处理
  • Android交互
  • CentOS学习笔记 - 12. Nginx搭建Centos7.5远程repo
  • django开发-定时任务的使用
  • echarts的各种常用效果展示
  • fetch 从初识到应用
  • Java 最常见的 200+ 面试题:面试必备
  • Java,console输出实时的转向GUI textbox
  • Java新版本的开发已正式进入轨道,版本号18.3
  • JS基础之数据类型、对象、原型、原型链、继承
  • MySQL的数据类型
  • rabbitmq延迟消息示例
  • redis学习笔记(三):列表、集合、有序集合
  • vue.js框架原理浅析
  • VuePress 静态网站生成
  • 分布式事物理论与实践
  • 给自己的博客网站加上酷炫的初音未来音乐游戏?
  • 双管齐下,VMware的容器新战略
  • 原生js练习题---第五课
  • 字符串匹配基础上
  • PostgreSQL之连接数修改
  • 格斗健身潮牌24KiCK获近千万Pre-A轮融资,用户留存高达9个月 ...
  • 智能情侣枕Pillow Talk,倾听彼此的心跳
  • ​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型
  • ​卜东波研究员:高观点下的少儿计算思维
  • ​软考-高级-系统架构设计师教程(清华第2版)【第1章-绪论-思维导图】​
  • # Redis 入门到精通(九)-- 主从复制(1)
  • # Redis 入门到精通(一)数据类型(4)
  • #常见电池型号介绍 常见电池尺寸是多少【详解】
  • #使用清华镜像源 安装/更新 指定版本tensorflow
  • (1)(1.9) MSP (version 4.2)
  • (2024,RWKV-5/6,RNN,矩阵值注意力状态,数据依赖线性插值,LoRA,多语言分词器)Eagle 和 Finch
  • (4)事件处理——(6)给.ready()回调函数传递一个参数(Passing an argument to the .ready() callback)...
  • (52)只出现一次的数字III
  • (C#)获取字符编码的类
  • (二刷)代码随想录第16天|104.二叉树的最大深度 559.n叉树的最大深度● 111.二叉树的最小深度● 222.完全二叉树的节点个数
  • (附源码)springboot人体健康检测微信小程序 毕业设计 012142
  • (理论篇)httpmoudle和httphandler一览
  • (四)React组件、useState、组件样式