当前位置: 首页 > news >正文

大模型参数高效微调技术总结

基础知识

最近,OpenAI推出的ChatGPT展现出了卓越的性能,引发了大规模语言模型(Large Language Model, LLM)的研究热潮。大规模语言模型的“大”体现在两个方面:模型参数规模大,训练数据规模大。以GPT3为例,GPT3的参数量为1750亿,训练数据量达到了570GB。进而,训练大规模语言模型面临两个主要挑战:显存效率和计算效率。

模型参数量

在这里插入图片描述

显存占用分析

在这里插入图片描述
float32和float16的32和16就是指bit。

训练过程

在这里插入图片描述

推理过程

在这里插入图片描述

FLOPs估计

在这里插入图片描述

self-attention

在这里插入图片描述

MLP

在这里插入图片描述

总和

在这里插入图片描述

计算量与参数量的关系

在这里插入图片描述

训练时间估计

在这里插入图片描述
在这里插入图片描述

中间激活值分析

在这里插入图片描述

对比中间激活与模型参数的显存大小

在这里插入图片描述

如何降低显存占用–KV cache

在这里插入图片描述

大模型参数高效微调PEFT(Parameter-Efficient Fine-Tuning)

(待填坑)

Reference

分析transformer模型的参数量、计算量、中间激活、KV cache
大模型参数高效微调技术原理综述-吃果冻不吐果冻皮

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 基于鸿蒙Next模拟扫图识物的一个过程
  • Transformer大模型在训练过程中所需的计算量
  • C语言:文件(写入,读取)
  • Angular路由使用
  • 培训第三十四天(初步了解Docker与套接字的应用)
  • [数据集][目标检测]木材缺陷检测数据集VOC+YOLO格式2383张10类别
  • C++学习笔记之数据结构
  • Prometheus 服务发现
  • k8s Unable to fetch container log stats failed to get fsstats for
  • 常规方法调用Mapper对象bean,批量插入数据
  • API接口安全101:基础概念与最佳实践
  • 企业高性能web服务器【Nginx详解】
  • jmeter简单发送接口
  • 龙门吊(天车)防撞方案
  • HarmonyOS开发实战:应用权限/通知设置跳转方案
  • 分享一款快速APP功能测试工具
  • .pyc 想到的一些问题
  • canvas 五子棋游戏
  • CAP 一致性协议及应用解析
  • Codepen 每日精选(2018-3-25)
  • gitlab-ci配置详解(一)
  • Java 多线程编程之:notify 和 wait 用法
  • JavaScript创建对象的四种方式
  • Octave 入门
  • PHP CLI应用的调试原理
  • python学习笔记-类对象的信息
  • 得到一个数组中任意X个元素的所有组合 即C(n,m)
  • 前端面试之CSS3新特性
  • 如何使用Mybatis第三方插件--PageHelper实现分页操作
  • 如何邀请好友注册您的网站(模拟百度网盘)
  • 体验javascript之美-第五课 匿名函数自执行和闭包是一回事儿吗?
  • 为什么要用IPython/Jupyter?
  • 源码安装memcached和php memcache扩展
  • 3月27日云栖精选夜读 | 从 “城市大脑”实践,瞭望未来城市源起 ...
  • gunicorn工作原理
  • Python 之网络式编程
  • 大数据全解:定义、价值及挑战
  • 教程:使用iPhone相机和openCV来完成3D重建(第一部分) ...
  • 选择阿里云数据库HBase版十大理由
  • ​520就是要宠粉,你的心头书我买单
  • # 数仓建模:如何构建主题宽表模型?
  • # 数据结构
  • #### go map 底层结构 ####
  • #QT 笔记一
  • #Ubuntu(修改root信息)
  • #设计模式#4.6 Flyweight(享元) 对象结构型模式
  • $nextTick的使用场景介绍
  • (~_~)
  • (el-Transfer)操作(不使用 ts):Element-plus 中 Select 组件动态设置 options 值需求的解决过程
  • (二)Pytorch快速搭建神经网络模型实现气温预测回归(代码+详细注解)
  • (二)斐波那契Fabonacci函数
  • (四)docker:为mysql和java jar运行环境创建同一网络,容器互联
  • (五十)第 7 章 图(有向图的十字链表存储)
  • (一)硬件制作--从零开始自制linux掌上电脑(F1C200S) <嵌入式项目>
  • (原創) 如何優化ThinkPad X61開機速度? (NB) (ThinkPad) (X61) (OS) (Windows)