当前位置: 首页 > news >正文

预训练语言模型PLM(课程笔记)

一:分为两种范式

1. Feature-based

        预训练的模型参数(word-enbeddings)作为下游任务的输入,不更新预训练参数。

        代表:word2vec,ELMO

2. Fine-tuning

        在下游任务时对模型参数进行更新

        代表:BERT,GPT

 二:GPT模型与BERT对比

1.模型结构        

        GPT是第一个基于transformer架构的PLM,使用的是transformer的Decoder;而Bert使用的是transformer的Encoder,相比于GPT结构更简单。

2.预训练方式

        GPT:自回归语言模型预训练(预测下一个词),单向的,更适合生成式任务。

        BERT:掩码语言模型(MLM)和下一句预测(NSP),双向的,更适合文本理解的任务。

3.存在的问题

        BERT用了MLM,pre-training和fine-tuning不能统一起来,且训练效率比较低。

三:GPT,GPT2,GPT3对比

整体趋势,模型越来越大,大力出奇迹。

GPT:Fine-tuning

GPT2:Zero-Shot Learning

GPT3:Few-Shot Learning,但不更新参数

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 数据结构:栈、队列详解篇
  • 找到sql里面参数字段占位符的位置,方便对字段进行加密存储
  • “软件定义汽车”下的软件虚拟化技术
  • Unity常用插件记录
  • MATLAB算法实战应用案例精讲-【人工智能】暗数据(概念篇)
  • 添加数据判断是否存在存在不添加,或存在更新
  • 【网络编程】第十章 网络层-IP(分片组装+网段+路由+NAT)
  • Linux rocky 9.2 安装mysql-8.0.39-linux-glibc2.28-x86_64.tar.xz
  • 引领未来的NVR方案:海思3520D芯片与全套NVR模组源代码解析
  • 搭建springboot项目,并解决项目出现红色J问题
  • 网络之DHCP实验
  • simulink 回放can数据,离线仿真,用来验证算法,应该怎么回读mat格式文件(重要)
  • 拍立淘API在商品搜索中的应用实践案例
  • 教程:postman的平替hoppscotch,又叫postwoman,hoppscotch的docker-compose安装过程
  • linux定期统计某个目录内每天的文件增量大小
  • 【162天】黑马程序员27天视频学习笔记【Day02-上】
  • 【译】React性能工程(下) -- 深入研究React性能调试
  • android百种动画侧滑库、步骤视图、TextView效果、社交、搜房、K线图等源码
  • C学习-枚举(九)
  • Docker 笔记(2):Dockerfile
  • Docker入门(二) - Dockerfile
  • Java到底能干嘛?
  • mysql 5.6 原生Online DDL解析
  • mysql innodb 索引使用指南
  • ng6--错误信息小结(持续更新)
  • nodejs实现webservice问题总结
  • React as a UI Runtime(五、列表)
  • SQLServer之创建数据库快照
  • SwizzleMethod 黑魔法
  • 从tcpdump抓包看TCP/IP协议
  • 精彩代码 vue.js
  • 前端技术周刊 2019-01-14:客户端存储
  • 深入体验bash on windows,在windows上搭建原生的linux开发环境,酷!
  • 思考 CSS 架构
  • 提醒我喝水chrome插件开发指南
  • 云大使推广中的常见热门问题
  • 2017年360最后一道编程题
  • 小白应该如何快速入门阿里云服务器,新手使用ECS的方法 ...
  • # Java NIO(一)FileChannel
  • #define、const、typedef的差别
  • (1)(1.19) TeraRanger One/EVO测距仪
  • (附源码)ssm高校志愿者服务系统 毕业设计 011648
  • (三)c52学习之旅-点亮LED灯
  • (一)项目实践-利用Appdesigner制作目标跟踪仿真软件
  • (译) 函数式 JS #1:简介
  • (译) 理解 Elixir 中的宏 Macro, 第四部分:深入化
  • .aanva
  • .net MVC中使用angularJs刷新页面数据列表
  • .Net多线程总结
  • /proc/interrupts 和 /proc/stat 查看中断的情况
  • /使用匿名内部类来复写Handler当中的handlerMessage()方法
  • @TableLogic注解说明,以及对增删改查的影响
  • @Transactional 详解
  • [012-1].第12节:Mysql的配置文件的使用
  • [ABP实战开源项目]---ABP实时服务-通知系统.发布模式