当前位置: 首页 > news >正文

Efficient Estimation of Word Representations in Vector Space论文笔记解读

基本信息

作者TomasMikolovdoi10.48550
发表时间2013期刊ICLR
网址http://arxiv.org/abs/1301.3781

研究背景

1. What’s known 既往研究已证实
前馈神经网络语言模型(NNLM)
循环神经网络语言模型(RNNLM)

2. What’s new 创新点
Word2vec有两种模型:CBOW和Skip-gram,使得计算成本下降并且准确率提升。
Word2vec的向量表示能够自动捕捉到单词之间的语义和语法关系。

3. What’s are the implications 意义
加快训练速度。
能够在大规模语料上进行词向量的训练。
衡量词向量之间的相似程度。

研究方法

1. skip-gram
通过中心单词来预测上下文单词。对于给定的一对(中心单词,上下文单词),我们希望最大化它们的共现概率。
在这里插入图片描述
用softmax来估计每个上下文单词的概率:
在这里插入图片描述
损失函数:
在这里插入图片描述
在这里插入图片描述

2. cbow(词袋模型bag-of-word)
用周围词预测中心词,求和的时候忽略了每个词的顺序。
在这里插入图片描述
在这里插入图片描述
损失函数:
在这里插入图片描述
最后输出V个概率,复杂度比较高,采用了2重方法降低复杂度,分别是层次softmax和负采样。

3. Hierarchical Softmax
将输出层的单词表示为一个二叉树,其中每个叶子节点都表示一个单词。每个非叶子节点都表示两个子节点的内积,每个叶子节点都表示该单词的条件概率。由于二叉树的形状,我们可以使用 l o g 2 W log_{2}W log2W个节点来表示词汇表大小为W的模型,降低计算量。
在这里插入图片描述
4. Negative Sampling
舍弃多分类,把多分类转变成二分类问题(正样本和负样本)。

正样本:用中心词和其中一个周围词做成正样本(jumps over)
负样本:我们随机从词表里面选一个词与over构成负样本(over again)

增大正样本的概率,减小负样本的概率。

损失函数:正样本函数+负样本函数
在这里插入图片描述
函数“J neg-sample ”越大越好,损失函数需要加个符号让损失越小越好。
https://zhuanlan.zhihu.com/p/419804103

结果与讨论

  1. 单词向量优于以前的技术状态。
  2. 使用非常简单的模型架构可以训练高质量的词向量。计算复杂性低,可从更大的数据集中计算非常精确的高维词向量。
  3. 通过Word2vec训练出的词向量可以用于许多自然语言处理任务,例如词义相似度计算、命名实体识别和情感分析等。

重要图

文献中重要的图记录下来
图1: 新的模型架构。CBOW架构根据上下文预测当前单词,Skip-gram根据当前单词预测周围单词
在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【学习笔记】4、组合逻辑电路(下)
  • 小程序自学教程
  • Android 内部保持数据的方式
  • 前端Canvas入门——一些注意事项
  • AC修炼计划(AtCoder Regular Contest 179)A~C
  • python的简单爬取
  • Python面试题:如何在 Python 中解析 XML 文件?
  • PyFluent入门之旅(5)后处理
  • LLM-阿里云 DashVector + ModelScope 多模态向量化实时文本搜图实战总结
  • Typescript 中bind的使用
  • 后端登录校验——Filter过滤器和Interceptor拦截器
  • 【架构】分布式与微服务架构解析
  • 京准电钟|ptp精密时钟服务器在网络内作用是什么?
  • k8s record 20240710 监控
  • CCSI: 数据无关类别增量学习的持续类特定印象| 文献速递-基于深度学习的多模态数据分析与生存分析
  • [nginx文档翻译系列] 控制nginx
  • 2017 年终总结 —— 在路上
  • 2017年终总结、随想
  • ABAP的include关键字,Java的import, C的include和C4C ABSL 的import比较
  • AHK 中 = 和 == 等比较运算符的用法
  • Javascript Math对象和Date对象常用方法详解
  • Laravel Mix运行时关于es2015报错解决方案
  • Making An Indicator With Pure CSS
  • Mysql5.6主从复制
  • Selenium实战教程系列(二)---元素定位
  • weex踩坑之旅第一弹 ~ 搭建具有入口文件的weex脚手架
  • zookeeper系列(七)实战分布式命名服务
  • 代理模式
  • 给新手的新浪微博 SDK 集成教程【一】
  • 利用阿里云 OSS 搭建私有 Docker 仓库
  • 前嗅ForeSpider中数据浏览界面介绍
  • 使用Tinker来调试Laravel应用程序的数据以及使用Tinker一些总结
  • - 语言经验 - 《c++的高性能内存管理库tcmalloc和jemalloc》
  • 栈实现走出迷宫(C++)
  • 国内唯一,阿里云入选全球区块链云服务报告,领先AWS、Google ...
  • 好程序员web前端教程分享CSS不同元素margin的计算 ...
  • 数据可视化之下发图实践
  • 资深实践篇 | 基于Kubernetes 1.61的Kubernetes Scheduler 调度详解 ...
  • ​【已解决】npm install​卡主不动的情况
  • ​虚拟化系列介绍(十)
  • # 详解 JS 中的事件循环、宏/微任务、Primise对象、定时器函数,以及其在工作中的应用和注意事项
  • # 再次尝试 连接失败_无线WiFi无法连接到网络怎么办【解决方法】
  • #android不同版本废弃api,新api。
  • #NOIP 2014#Day.2 T3 解方程
  • #周末课堂# 【Linux + JVM + Mysql高级性能优化班】(火热报名中~~~)
  • (1)安装hadoop之虚拟机准备(配置IP与主机名)
  • (delphi11最新学习资料) Object Pascal 学习笔记---第13章第1节 (全局数据、栈和堆)
  • (k8s)Kubernetes 从0到1容器编排之旅
  • (Redis使用系列) Springboot 使用redis实现接口幂等性拦截 十一
  • (二)c52学习之旅-简单了解单片机
  • (附源码)spring boot球鞋文化交流论坛 毕业设计 141436
  • (附源码)springboot 校园学生兼职系统 毕业设计 742122
  • (论文阅读40-45)图像描述1
  • (十六)一篇文章学会Java的常用API
  • (一)SvelteKit教程:hello world