当前位置: 首页 > news >正文

NLP 之词的表示与语言模型

表示的基本原理:

机器无法理解文字,却能进行复杂的数学运算——神经网络只要够深、够复杂,就能拟合足够复杂的数学模式。把文字嵌入(embed)到一个向量空间中去。

词表示(Word Representation)分为4代

1.独热(One hot)编码

基本原理:

假设中文字典有n个词元,那么第i(i=1,2,3,...,n)个词元的编码为一个长度为n的向量,它的第i位为1,其他为0。独热编码实现了对文本的向量化嵌入。

问题:

第一,向量的维度太长了,文本的表示过于稀疏;

第二,词向量与词向量之间完全正交,不具有相关性。

2.词频-逆文档词频(Term Frequency-Inverse Term Frequency, TF-IDF)

根据Zipf's Law,在给定的自然语言语料库中,任何一个词的频率与它在频率表中的排名成反比。

3.语境无关(Context-free/Non-contextual)的词表示:Word2vec

它对每一个词生成一个相同的词表示,不考虑同一个词在不同语境下含义的差别。

连续词袋法:

用一个浅层神经网络,依次遮住句子中的每一个词,然后用它的上下文来预测它

跳元法:

我们用一个k元词组来预测它的上下文

自监督预训练:

通过“破坏”句子的一部分,让模型预测它,从而实现对词的更精确的表示.

4.语境相关(Context-dependent/Contextual)的词表示:BERT

语言的多义性是人类自然语言的重要特点。

BERT考虑了三层嵌入:词嵌入、位置嵌入(词在句子中的位置)和句子嵌入,并把它们加起来作为最后的嵌入表示。

BERT使用WordPiece分词器(tokenizer),借鉴了自监督训练的思想,在两个任务上进行预训练:下句预测(Next Sentence Prediction)和掩码语言建模(Masked Language Modeling)。

下句预测是一个二分类任务:给定一个句子,判定另一个句子是否是它的下一句;

掩码语言建模任务随机掩盖其中15%的单词,并训练模型来预测被掩盖的单词,为了预测被掩盖的单词,模型从两个方向阅读该句并进行预测。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 巴黎奥运会8K转播科技为国产品牌自主研发设计
  • 第二章 部署LVS-DR集群
  • Mongodb权限
  • 谷粒商城实战笔记-136-商城业务-首页-整合thymeleaf渲染首页
  • Django异步请求和后台管理实战
  • 『哈哥赠书 - 55期』-『码农职场:IT人求职就业手册』
  • IT课程学习搭子
  • 【AD域】搭建AD域服务器
  • C++STL常用总结
  • 2024年7月30日~2024年8月5日周报
  • 技术速递|VS Code Java 7月更新 - Gradle 支持增强!用户体验改进与 Spring 新功能
  • 量化投资基础(四)之AR、MA、ARMA与ARIMA模型
  • NASA:气溶胶研究处 (ARB) 48 英寸激光雷达数据
  • 边缘计算在智能交通系统中的应用探究
  • qt下载安装
  • Google 是如何开发 Web 框架的
  • SegmentFault for Android 3.0 发布
  • [译]前端离线指南(上)
  • avalon2.2的VM生成过程
  • Codepen 每日精选(2018-3-25)
  • If…else
  • Javascript 原型链
  • Joomla 2.x, 3.x useful code cheatsheet
  • miaov-React 最佳入门
  • Node 版本管理
  • Quartz实现数据同步 | 从0开始构建SpringCloud微服务(3)
  • vue从创建到完整的饿了么(18)购物车详细信息的展示与删除
  • vue脚手架vue-cli
  • Vue学习第二天
  • 从@property说起(二)当我们写下@property (nonatomic, weak) id obj时,我们究竟写了什么...
  • 计算机常识 - 收藏集 - 掘金
  • 前端代码风格自动化系列(二)之Commitlint
  • 我从编程教室毕业
  • 一些css基础学习笔记
  • 自制字幕遮挡器
  • 资深实践篇 | 基于Kubernetes 1.61的Kubernetes Scheduler 调度详解 ...
  • ​DB-Engines 11月数据库排名:PostgreSQL坐稳同期涨幅榜冠军宝座
  • ​第20课 在Android Native开发中加入新的C++类
  • # Redis 入门到精通(八)-- 服务器配置-redis.conf配置与高级数据类型
  • #NOIP 2014#Day.2 T3 解方程
  • #QT(智能家居界面-界面切换)
  • (3)选择元素——(17)练习(Exercises)
  • (LLM) 很笨
  • (python)数据结构---字典
  • (SpringBoot)第七章:SpringBoot日志文件
  • (八)光盘的挂载与解挂、挂载CentOS镜像、rpm安装软件详细学习笔记
  • (三)mysql_MYSQL(三)
  • (一)Dubbo快速入门、介绍、使用
  • (正则)提取页面里的img标签
  • (转)eclipse内存溢出设置 -Xms212m -Xmx804m -XX:PermSize=250M -XX:MaxPermSize=356m
  • (转)jdk与jre的区别
  • *** 2003
  • ***检测工具之RKHunter AIDE
  • .“空心村”成因分析及解决对策122344
  • .NET C# 使用 iText 生成PDF