当前位置: 首页 > news >正文

Bert浅谈

优点

首先,bert的创新点在于利用了双向transformer,这就跟openai的gpt有区别,gpt是采用单向的transformer,而作者认为双向transformer更能够融合上下文的信息。这里双向和单向的区别在于,单向只跟当前位置之前的tocken相连,双向与当前位置之后的tocken也有连接。跟ELMo相比的优势在于,transformer对特征的提取能力比lstm要强得多。
在这里插入图片描述

模型输入

首先是对输入的句子做tocken embedding,也就是将句子映射为一维向量,可以是word2vec的结果,猜想一下,如果不是维度过高也可以是one-hot,第二部分segment embedding 是在模型训练过程中自动学习得到的,猜想这里可以用全连接,也可以用transformer,最后是position embedding,主要用以区别“我喜欢妈妈”和“妈妈喜欢我”,虽然这两句话的单词一样,但是因为位置不同,所以含义不同。
在这里插入图片描述

模型参数

BERTBASE (L=12, H=768, A=12, Total Parameters=110M)

BERTLARGE (L=24, H=1024,
A=16, Total Parameters=340M).

L表示层数,H为隐层维度,A为注意力头的数量

两种任务

Masked LM

这个任务主要是随机将某句话的某几个位置做处理,这里的处理可能是3种,80%的概率用[mask]代替,10%的概率保留原来的单词,10%的概率用其他单词代替。就像是英语考试中的完形填空
在这里插入图片描述

Next Sentence Prediction (NSP)

主要利用输入的第一个tocken[cls]和中间的tocken[sep],其中cls用来表示后面一句是否为前一句的下一句,sep表示两个句子的间隔。从文本语料库中随机选择 50% 正确语句对和 50% 错误语句对进行训练。就像是与语文中的句子排序。

参考:BERT模型的详细介绍

相关文章:

  • 【手写数据库toadb】SQL解析器的实现架构,create table/insert 多values语句的解析树生成流程和输出结构分析
  • 什么是美国服务器,有哪些优势,适用于什么场景?
  • 【Python大数据笔记_day08_hive查询】
  • 【Android】导入三方jar包/系统的framework.jar
  • vue-pdf在vue框架中的使用
  • spring+pom-注意多重依赖时的兼容问题[java.lang.NoSuchMethodError]
  • Android13集成paho.mqtt.android启动异常
  • 探索计算机视觉技术的应用前景
  • 如何基于OpenCV和Sklearn算法库开展机器学习算法研究
  • 便利工具分享:一个proto文件的便利使用工具
  • Filter和ThreadLocal结合存储用户id信息
  • HashMap散列表的相关知识点
  • Python Flask: 构建轻量级、灵活的Web应用
  • 一键云端,AList 整合多网盘,轻松管理文件多元共享
  • jbase打印导出实现
  • [LeetCode] Wiggle Sort
  • [译] 理解数组在 PHP 内部的实现(给PHP开发者的PHP源码-第四部分)
  • 【刷算法】求1+2+3+...+n
  • Spark学习笔记之相关记录
  • WinRAR存在严重的安全漏洞影响5亿用户
  • 持续集成与持续部署宝典Part 2:创建持续集成流水线
  • 关于Android中设置闹钟的相对比较完善的解决方案
  • 海量大数据大屏分析展示一步到位:DataWorks数据服务+MaxCompute Lightning对接DataV最佳实践...
  • 基于 Babel 的 npm 包最小化设置
  • 物联网链路协议
  • Salesforce和SAP Netweaver里数据库表的元数据设计
  • 选择阿里云数据库HBase版十大理由
  • ​草莓熊python turtle绘图代码(玫瑰花版)附源代码
  • ###51单片机学习(1)-----单片机烧录软件的使用,以及如何建立一个工程项目
  • ###C语言程序设计-----C语言学习(3)#
  • #LLM入门|Prompt#1.7_文本拓展_Expanding
  • (done) 两个矩阵 “相似” 是什么意思?
  • (附源码)ssm本科教学合格评估管理系统 毕业设计 180916
  • (蓝桥杯每日一题)love
  • (六)c52学习之旅-独立按键
  • (一)WLAN定义和基本架构转
  • (原创)boost.property_tree解析xml的帮助类以及中文解析问题的解决
  • (转)chrome浏览器收藏夹(书签)的导出与导入
  • (转)Oracle存储过程编写经验和优化措施
  • .net CHARTING图表控件下载地址
  • .NET Standard / dotnet-core / net472 —— .NET 究竟应该如何大小写?
  • @font-face 用字体画图标
  • @ResponseBody
  • [BIZ] - 1.金融交易系统特点
  • [C#] 基于 yield 语句的迭代器逻辑懒执行
  • [C++]模板与STL简介
  • [C++随笔录] 红黑树
  • [emacs] CUA的矩形块操作很给力啊
  • [HOW TO]怎么在iPhone程序中实现可多选可搜索按字母排序的联系人选择器
  • [javaSE] 数据结构(二叉查找树-插入节点)
  • [java面试]宇信易诚 广州分公司 java笔试题目回忆录
  • [LOJ161] 仙人掌计数
  • [LWC] Components Communication
  • [openGL]在ubuntu20.06上搭建openGL环境
  • [paddle]ModuleNotFoundError: No module named ‘paddle.nn.layer.layers