当前位置: 首页 > news >正文

学习记录--GPT

目录

总体结构

1:输入层

2:transformer对叠层

3:输出层

1:预训练阶段

2:下游任务精调阶段(微调)


总体结构

1:输入层

Tokenization:文本输入首先经过分词处理,将文本转换为Token序列。这通常涉及将文本分割成单词、子词或其他基本单位。

Embedding:分词后的Token序列通过Embedding层转换为固定维度的向量表示。Embedding层将每个Token映射到一个高维空间中,捕捉其语义信息。

2:transformer对叠层

GPT的核心是多个Transformer解码器的堆叠。每个解码器都包含以下几个关键组件:

自注意力机制:自注意力机制允许模型在处理序列时关注不同位置的Token。通过计算Token之间的注意力权重,模型能够捕捉输入序列中的依赖关系,并为每个位置生成上下文相关的表示。

前馈神经网络:除了自注意力机制外,每个解码器还包含一个前馈神经网络。该网络对自注意力机制的输出进行进一步转换,以提取更高级别的特征。

残差连接和层归一化:为了提高模型的训练稳定性和效果,每个解码器都使用了残差连接和层归一化。这些技术有助于缓解梯度消失和梯度爆炸问题,并加速模型的收敛。

3:输出层

经过多个Transformer解码器堆叠处理后,最后一层的输出被用作生成文本的依据。对于每个位置,模型预测下一个Token的概率分布。这通常通过一个线性层和一个Softmax激活函数来实现,将解码器的输出转换为概率值。

中间核心就是12个Decoder(准确来说不是,只是类似而已,用Encoder也是可以实现的)


1:预训练阶段

在预训练阶段,模型使用大规模的无标注文本数据进行训练,以学习语言的统计规律和生成能力。通过自回归的方式,模型预测输入序列中的下一个Token,并最大化在训练数据上的似然性。7-2,7-3,7-4三个式子对应之前的GPT结构图,输出P(x)为输出,每个词被预测到的概率,再利用7-1式,计算最大似然函数,据此构造损失函数,即可以对该语言模型进行优化。

2:下游任务精调阶段(微调)

模型使用特定任务的标注数据进行训练,以适应各种NLP任务。通过在模型的顶部添加适当的输出层,并使用任务特定的目标函数进行训练,模型能够学习将输入文本映射到特定任务的输出空间



 参考:

GPT模型总结【模型结构及计算过程_详细说明】_gpt结构-CSDN博客

神经网络算法:一文搞懂GPT(Generative Pre-trained Transformer)-CSDN博客

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • QT获取电脑网卡IP等信息
  • Spring boot 运行环境搭建之Spring Tools 4 for Eclipse
  • STM32、Spring Boot、MQTT和React Native:智能停车管理系统的全栈开发详解(附代码示例)
  • react-draft-wysiwyg API
  • Nacos 服务发现(订阅)源码分析(服务端)
  • 数据仓库事实表
  • 【微服务实战之Docker容器】第六章-复杂安装(Mysql主从Redis集群)
  • 代理伺服器分類詳解
  • ArcGIS Pro SDK (九)几何 10 弧
  • 【数据结构】初识数据结构
  • AI、AGI、AIGC与AIGC、NLP、LLM,ChatGPT区分
  • Nature子刊 | ATAC-seq、RNA-seq和蛋白组联合分析揭示脂质激活转录因子PPARα在肾脏代偿性肥大的作用机制
  • pdf怎么压缩的小一点?PDF压缩变小的6种方法(2024全新)
  • 数学基础【俗说矩阵】:初等矩阵和矩阵的初等行变化关系推导
  • 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【26】【内网穿透】cpolar
  • [ 一起学React系列 -- 8 ] React中的文件上传
  • 【跃迁之路】【669天】程序员高效学习方法论探索系列(实验阶段426-2018.12.13)...
  • 2018以太坊智能合约编程语言solidity的最佳IDEs
  • angular2 简述
  • CentOS从零开始部署Nodejs项目
  • Django 博客开发教程 16 - 统计文章阅读量
  • Docker: 容器互访的三种方式
  • es6要点
  • nginx 配置多 域名 + 多 https
  • rc-form之最单纯情况
  • React中的“虫洞”——Context
  • SQLServer之索引简介
  • Terraform入门 - 1. 安装Terraform
  • 编写高质量JavaScript代码之并发
  • 代理模式
  • 多线程 start 和 run 方法到底有什么区别?
  • 干货 | 以太坊Mist负责人教你建立无服务器应用
  • 机器学习 vs. 深度学习
  • 世界编程语言排行榜2008年06月(ActionScript 挺进20强)
  • 跳前端坑前,先看看这个!!
  • 我是如何设计 Upload 上传组件的
  • 支付宝花15年解决的这个问题,顶得上做出十个支付宝 ...
  • #LLM入门|Prompt#1.7_文本拓展_Expanding
  • #Lua:Lua调用C++生成的DLL库
  • #设计模式#4.6 Flyweight(享元) 对象结构型模式
  • (Redis使用系列) SpringBoot中Redis的RedisConfig 二
  • (不用互三)AI绘画:科技赋能艺术的崭新时代
  • (草履虫都可以看懂的)PyQt子窗口向主窗口传递参数,主窗口接收子窗口信号、参数。
  • (二十九)STL map容器(映射)与STL pair容器(值对)
  • (附源码)springboot高校宿舍交电费系统 毕业设计031552
  • (每日一问)设计模式:设计模式的原则与分类——如何提升代码质量?
  • (欧拉)openEuler系统添加网卡文件配置流程、(欧拉)openEuler系统手动配置ipv6地址流程、(欧拉)openEuler系统网络管理说明
  • (三)Pytorch快速搭建卷积神经网络模型实现手写数字识别(代码+详细注解)
  • (新)网络工程师考点串讲与真题详解
  • (一)硬件制作--从零开始自制linux掌上电脑(F1C200S) <嵌入式项目>
  • (源码版)2024美国大学生数学建模E题财产保险的可持续模型详解思路+具体代码季节性时序预测SARIMA天气预测建模
  • (转)ABI是什么
  • (状压dp)uva 10817 Headmaster's Headache
  • .gitignore文件_Git:.gitignore
  • .NET 6 Mysql Canal (CDC 增量同步,捕获变更数据) 案例版