当前位置: 首页 > news >正文

大模型-模型架构-主流架构

一、发展历史

1、早期
  • 训练方式:预训练+微调
  • 主流架构:
    • 编码器架构:BERT
    • 解码器架构:GPT
    • 编码器+解码器架构:T5
2、当前
  • 训练方式:解码器为主流
  • 变种架构:
    • 因果解码器架构
    • 前缀解码器架构

二、架构简介

1、编码器-解码器架构
  • 特点
    • 编码器端使用双向自注意力机制对输入信息进行编码处理,在解码器端则使用了交叉注意力与掩码自注意力机制,进而通过自回归的方式进行生成
    • 当前使用较少
2、因果解码器架构
  • 特点
    • 当前绝大部分大模型均采用此架构
    • 没有显示的区分输入和输出部分
    • 采用单向的掩码注意力机制,每个输入的词元只关注它前面的和它本身的词元,进而自回归的预测输出词元
    • 由于不包含解码器,因果解码器架构删除了关注编码器表示的交叉注意力模块
    • 经过自注意力模块后的词元表示将直接进入到前馈神经网络中
  • 代表大模型
    • GPT、LLaMA
3、前缀解码器架构(又称非因果解码器架构)
  • 特点
    • 对因果解码器的掩码机制进行了调整,跟因果解码器一样,只保留了解码器部分
    • 参考了编码器-解码器架构设计,对输入输出都进行了特殊处理,输入使用双向注意力进行编码,输出使用单向的掩码注意力利用词元本身和前面的词元进行自回归的预测
    • 与编码器-解码器架构相比,前缀解码器在编码与解码的过程中是共享参数的
    • 可以基于因果解码器继续训练转换成前缀解码器
  • 代表大模型
    • GLM-130B

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 数据结构应试-树和二叉树
  • 数据结构和算法之树形结构(1)
  • SaaS架构:流程架构分析
  • web 动画库
  • C++第八节课 日期类的补充
  • Python开发深度学习常见安装包 error 解决
  • 【基于轻量型架构的WEB开发】【章节作业】
  • 上传富文本插入文件时报错:JSON parse error: Unexpected character解决办法
  • 半导体器件制造5G智能工厂数字孪生物联平台,推进制造业数字化转型
  • Paragon NTFS for Mac和Tuxera NTFS for Mac,那么两种工具有什么区别呢?
  • SpringBoot 入门实践
  • ConvexHull-凸包-原理-代码实现
  • 【pandas操作:如何写XLSX文档】
  • 游戏陪玩系统源码搭建教程,如何配置陪玩系统的第三方云储存
  • React + React Image支持图像的各种转换,如圆形、模糊等效果吗?
  • #Java异常处理
  • cookie和session
  • es的写入过程
  • Just for fun——迅速写完快速排序
  • Puppeteer:浏览器控制器
  • Web设计流程优化:网页效果图设计新思路
  • yii2权限控制rbac之rule详细讲解
  • 从输入URL到页面加载发生了什么
  • 基于web的全景—— Pannellum小试
  • 来,膜拜下android roadmap,强大的执行力
  • 每个JavaScript开发人员应阅读的书【1】 - JavaScript: The Good Parts
  • 判断客户端类型,Android,iOS,PC
  • 前端每日实战:61# 视频演示如何用纯 CSS 创作一只咖啡壶
  • 巧用 TypeScript (一)
  • 让你的分享飞起来——极光推出社会化分享组件
  • 如何利用MongoDB打造TOP榜小程序
  • 入门级的git使用指北
  • 用Visual Studio开发以太坊智能合约
  • 在GitHub多个账号上使用不同的SSH的配置方法
  • ionic入门之数据绑定显示-1
  • Prometheus VS InfluxDB
  • ​探讨元宇宙和VR虚拟现实之间的区别​
  • #include
  • (Spark3.2.0)Spark SQL 初探: 使用大数据分析2000万KF数据
  • (初研) Sentence-embedding fine-tune notebook
  • (含react-draggable库以及相关BUG如何解决)固定在左上方某盒子内(如按钮)添加可拖动功能,使用react hook语法实现
  • (论文阅读31/100)Stacked hourglass networks for human pose estimation
  • (强烈推荐)移动端音视频从零到上手(下)
  • (三维重建学习)已有位姿放入colmap和3D Gaussian Splatting训练
  • (四)事件系统
  • (转)重识new
  • (轉)JSON.stringify 语法实例讲解
  • ***详解账号泄露:全球约1亿用户已泄露
  • .htaccess配置常用技巧
  • .NET 5.0正式发布,有什么功能特性(翻译)
  • .NET C# 使用GDAL读取FileGDB要素类
  • .NET CORE使用Redis分布式锁续命(续期)问题
  • .NET Micro Framework初体验(二)
  • .NET 表达式计算:Expression Evaluator
  • .NET与 java通用的3DES加密解密方法