当前位置: 首页 > news >正文

language model

1、language model(LM):估计token序列的可能性

2、对于HMM,固定需要P(Y)才符合公式;对于LAS,加上P(Y)能够使效果更好

        P(Y|X)需要成对的数据,而P(Y)不需要成对,所以可以得到很多数据

3、N-gram

(1)估计P(Y),收集大量的样本,将整个评估token序列概率分成许多小块的序列概率相乘

(2)例子:wreck a nice beach

(3)3-gram等就是,给两个词预测下一个的概率,以次类推N

(4)有一个问题就是,给的样本虽然说很大,但是不可能涵盖所有的语言,所以有些P即使在样本中没有找到P也不应该写为0,给一个小概率。

4、continuous LM使用到一个推荐机制(个人理解就像是找相同特征认为有可能具有同样的行为)

(1)图中数字是指在样本中出现的次数

(2)h_i和v_j是属于token的特征,并且是我们想训练的向量参数

(3)训练条件是

也就是希望向量v_i与向量h_j相乘可以得到非常近似nij,使用梯度下降进行训练。

(4)训练结果就是:

(5)将DL引入:

a、输入为所有的token的h作为的输入向量(如果要训练dog,就只将dog的部分设为1,其他为0)

b、中间的层就只是一个线性层

c、输出预计的词汇个数,与训练集中的数据做对比

d、也就是单纯把这个网络看作为神经网络

5、NN-based LM是想用于取代N-gram,因为在NN中可以将分成小块的概率计算出来

6、RNN-based LM:可以用于处理非常长的N-gram

7、LM跟今天的DL based 的end to end 的model结合起来(以LAS为例)

(1)结合方式

(2)浅融合:将LM和LAS的输出的distribution通过权重(可训练的)进行加和。

(3)深融合:在Hiddenlayer的地方就进行融合,这个融合的Network是需要训练的

a、但如果更换LM,需要重新训练network;对于不同的输入情况,可能需要不同的LM,所以下面改进。

b、将LM训练到softmax之前的,dimension跟tokensize相同的输出放到Network中,这样就可以更换LM了。

c、有一个好处是,即使LM是输出关于token的概率的model,也能适应这种训练方式。

d、但是上述会有一个问题,加入vocabularysize很大,使用word作为token,dimension太大了,就有些问题

(4)cold fusion:需要关注什么时候将LM加入

a、LM已经训练好了,LAS还没训练好,再将Network训练好,这样可以加快LAS的训练速度

b、是因为LM已经处理好文字和文字之间的关系了,就让LAS更加专注于文字和语音之间的关系

c、有问题就是,LM就真的不能更换了,因为LAS一出生就跟LM绑定在一起

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • php收银系统源码(收银pos+聚合支付+ai智能称重+连锁多门店+多商户入驻平台版商城)
  • 【笔记】MSPM0G3507移植RT-Thread——MSPM0G3507与RT_Thread(二)
  • 图书借阅会员员工管理小程序开发
  • Spring事务管理和事务传播机制详解
  • 项目成功的关键:10款需求文档管理工具
  • Android进阶之路 - res、raw、assets 资源解析、区别对比
  • 生态系统NPP及碳源、碳汇模拟(土地利用变化、未来气候变化、空间动态模拟)
  • 【瑞芯微RV1126(板端摄像头图像数据采集)】②使用v4l2视频设备驱动框架采集图像数据,按键拍照并显示
  • 《Hadoop大数据技术与实践》+ 数仓版本
  • 使用免费图书馆条形码扫描仪快速扫描书籍
  • HarmonyOS应用开发者高级认证(一)
  • AI学习记录 - 自注意力机制中掩码的注意事项
  • 在亚马逊云科技上安全、合规地创建AI大模型训练基础设施并开发AI应用服务
  • 传输层安全性 ——TLS(Transport Layer Security)简介
  • Web Image scr图片从后端API获取基本实现
  • extjs4学习之配置
  • LintCode 31. partitionArray 数组划分
  • Linux CTF 逆向入门
  • mongo索引构建
  • Twitter赢在开放,三年创造奇迹
  • 当SetTimeout遇到了字符串
  • 分布式熔断降级平台aegis
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 诡异!React stopPropagation失灵
  • 基于 Babel 的 npm 包最小化设置
  • 日剧·日综资源集合(建议收藏)
  • 容器化应用: 在阿里云搭建多节点 Openshift 集群
  • 使用 @font-face
  • 使用SAX解析XML
  • 使用权重正则化较少模型过拟合
  • 新手搭建网站的主要流程
  • LevelDB 入门 —— 全面了解 LevelDB 的功能特性
  • Prometheus VS InfluxDB
  • 阿里云ACE认证之理解CDN技术
  • ​决定德拉瓦州地区版图的关键历史事件
  • ​力扣解法汇总1802. 有界数组中指定下标处的最大值
  • ​软考-高级-系统架构设计师教程(清华第2版)【第9章 软件可靠性基础知识(P320~344)-思维导图】​
  • ​总结MySQL 的一些知识点:MySQL 选择数据库​
  • #### golang中【堆】的使用及底层 ####
  • #QT(智能家居界面-界面切换)
  • #每天一道面试题# 什么是MySQL的回表查询
  • #预处理和函数的对比以及条件编译
  • (1)常见O(n^2)排序算法解析
  • (二) Windows 下 Sublime Text 3 安装离线插件 Anaconda
  • (附源码)springboot码头作业管理系统 毕业设计 341654
  • (六)Flink 窗口计算
  • (论文阅读30/100)Convolutional Pose Machines
  • (面试必看!)锁策略
  • (七)glDrawArry绘制
  • (十五)Flask覆写wsgi_app函数实现自定义中间件
  • (四)搭建容器云管理平台笔记—安装ETCD(不使用证书)
  • ***php进行支付宝开发中return_url和notify_url的区别分析
  • .NET 设计模式初探
  • .Net 知识杂记
  • .NET 中什么样的类是可使用 await 异步等待的?