当前位置: 首页 > news >正文

LLM的训练与推断

LLM的训练与推断

请添加图片描述

目前比较流行的大模型一般都是自回归模型。在推理时,它类似于RNN,每次计算下一个token的概率。也就是说,如果除去最开始的输入情况下,最终推理长度为n的话,就需要计算n次。但是训练却是并行化的。

在使用transformer库情况下,使用以下函数进行推理:

model.generate()

某些基础知识可参照轻松上手微调大语言模型——QLORA篇。

虽然推理类似串行模式,但是我们仍然可以优化它,这种后续更新的Blog中会详细解释。

为什么基于Transformer的大模型可以并行训练

在注意力层重使用了因果掩码操作。因果掩码(Causal Masking)是一个在序列生成任务中非常重要的概念,特别是在语言模型的训练和推理过程中。它的主要目的是确保模型在预测下一个词时只能使用之前的词,而不能看到后面的词,以防止信息泄露或不合理的预测。例如,对于输入序列 x = [ x 1 , x 2 , x 3 , . . . , x n ] x = [x_1, x_2, x_3, ..., x_n] x=[x1,x2,x3,...,xn],当模型在预测 x t x_t xt 时,因果掩码会遮挡 x t + 1 x_{t+1} xt+1 x n x_n xn,确保模型只能看到 x 1 , x 2 , . . . , x t x_1, x_2, ..., x_t x1,x2,...,xt。这样,模型的输出不会依赖于未来的输入,保证了生成过程的一致性。

这也是为什么模型推断时是串行的,每次推断 x i + 1 x_{i+1} xi+1都是基于 x 1 : i x_{1:i} x1:i
用数学公式形式化来讲:

x 2 , x 3 , . . . , x t + 1 = f θ ( x 1 , x 2 , x 3 , . . . , x t ) x_2, x_3, ..., x_{t+1}=f_\theta(x_1, x_2, x_3, ..., x_t) x2,x3,...,xt+1=fθ(x1,x2,x3,...,xt)

其中 f θ f_\theta fθ是以 θ \theta θ为参数的LLM。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 字节测开面筋大总结!!!!
  • Flutter 中自定义DNS解析的实现
  • 移动式气象站:便携科技的天气守望者
  • 制作excel模板,用于管理后台批量导入船舶数据
  • 优选算法之位运算
  • React基础知识 精简全面 推荐
  • AI绘画3分钟解决英文恐惧症,comfyui汉化插件
  • 安装python插件命令集合
  • 分布式文件存储行业解决方案和技术选型分析
  • 【MySQL进阶之路 | 高级篇】显式事务和隐式事务
  • electron 网页TodoList应用打包win桌面软件数据持久化
  • 00-从零开始安装Oracle19c之数据库安装规划
  • 这款ERP云进销存系统,直接封神
  • 【排序】快速排序详解
  • 《学会 SpringMVC 系列 · 基础篇》
  • @angular/forms 源码解析之双向绑定
  • 【RocksDB】TransactionDB源码分析
  • 【腾讯Bugly干货分享】从0到1打造直播 App
  • CSS魔法堂:Absolute Positioning就这个样
  • go append函数以及写入
  • Java编程基础24——递归练习
  • maya建模与骨骼动画快速实现人工鱼
  • overflow: hidden IE7无效
  • PHP 7 修改了什么呢 -- 2
  • PHP 使用 Swoole - TaskWorker 实现异步操作 Mysql
  • React-Native - 收藏集 - 掘金
  • Spring框架之我见(三)——IOC、AOP
  • uni-app项目数字滚动
  • Vue UI框架库开发介绍
  • vue-router 实现分析
  • vue脚手架vue-cli
  • vue--为什么data属性必须是一个函数
  • windows下mongoDB的环境配置
  • 测试如何在敏捷团队中工作?
  • mysql 慢查询分析工具:pt-query-digest 在mac 上的安装使用 ...
  • 积累各种好的链接
  • # windows 安装 mysql 显示 no packages found 解决方法
  • #Linux(权限管理)
  • #多叉树深度遍历_结合深度学习的视频编码方法--帧内预测
  • (1)Android开发优化---------UI优化
  • (zhuan) 一些RL的文献(及笔记)
  • (ZT)北大教授朱青生给学生的一封信:大学,更是一个科学的保证
  • (独孤九剑)--文件系统
  • (二刷)代码随想录第15天|层序遍历 226.翻转二叉树 101.对称二叉树2
  • (附表设计)不是我吹!超级全面的权限系统设计方案面世了
  • (没学懂,待填坑)【动态规划】数位动态规划
  • (四) 虚拟摄像头vivi体验
  • ... 是什么 ?... 有什么用处?
  • .NET框架设计—常被忽视的C#设计技巧
  • .net实现客户区延伸至至非客户区
  • .Net下使用 Geb.Video.FFMPEG 操作视频文件
  • .vollhavhelp-V-XXXXXXXX勒索病毒的最新威胁:如何恢复您的数据?
  • @Autowired和@Resource的区别
  • @cacheable 是否缓存成功_让我们来学习学习SpringCache分布式缓存,为什么用?
  • @property python知乎_Python3基础之:property