当前位置: 首页 > news >正文

大模型-模型预训练-模型参数量计算

一、说明

  • 当前主流大模型架构为因果解码器架构
  • 以下参数量计算以LLaMA为例
  • 假设解码器有L层、词表大小为V

二、参数量组成部分及计算

1、输入嵌入层【VH】

词表大小为V,每个单次映射到一个H维的向量,且输入嵌入层只有一层,因此有VH个参数

2、多头自注意力层【4LH²】

解码器的每一层都包含一个多头自注意力层,查询、键、值三个组成变换矩阵,1个包含H²个参数,共3H²个参数,同事还需要1个额外的线性变换来将多头自注意力机制的输出拼接成最终的输出,有需要H²个参数,总共需要4LH²个参数

3、前馈网络层【3LHH´】

由三个线性变换组成,中间有一个非线性激活函数,前两个线性变换将输入从H维映射到H´维度,需要2HH´个参数,最后一个线性变换将输出从H´维映射回H维,需要HH´个参数,总共需要3HH´个参数

4、归一化层【2HL+H】

每层解码器包含两个RMSNorm操作,分别用于多头注意力层和前馈网络层的输入进行归一化处理,共有2LH个参数,最后一层也有一个归一化层,需要H个参数

5、输出层【VH】

输出层包含一个线性变换,将解码器的输出映射到词表大小V的维度,使用Softmax归一化后预测下一个单词的概率分布,需要VH个参数

三、计算过程

输入嵌入层VH+多头自注意力层4LH² +前馈网络层3LHH´+归一化层2LH+H +输出层VH
= 2VH + H + L(4H² + 3HH´ + 2H)

相关文章:

  • 落魄前端搞副业之 改造淘宝首页(淘宝换肤)
  • Java实现Excel导入和导出
  • TypeScript 设计模式之【状态模式】
  • 生信分析Python编程高级技巧
  • DAY16||513.找树左下角的值 |路径总和|从中序与后序遍历序列构造二叉树
  • llama_deploy
  • 5个最佳开源RPA框架之一UI.Vision介绍
  • SylixOS网络之DMA(Direct Memory Access)
  • docker 创建showdoc服务 showdoc容器部署教程
  • 计算机毕业设计 在线问诊系统的设计与实现 Java实战项目 附源码+文档+视频讲解
  • 【文心智能体】 旅游手绘手帐 开发分享 零代码 手绘风景 记录行程和心情 旅游攻略
  • 基于真实山地场景下的超多目标优化算法求解无人机三维路径规划,MATLAB代码
  • 短剧向左,体育向右,快手前途未卜?
  • 基于STM32的智能家居交互终端:使用FreeRTOS与MQTT协议的流程设计
  • MyBatis 中的类型别名配置详解
  • Android框架之Volley
  • AngularJS指令开发(1)——参数详解
  • java第三方包学习之lombok
  • JS进阶 - JS 、JS-Web-API与DOM、BOM
  • Mithril.js 入门介绍
  • PhantomJS 安装
  • Swift 中的尾递归和蹦床
  • 安卓应用性能调试和优化经验分享
  • 构建二叉树进行数值数组的去重及优化
  • 关于Java中分层中遇到的一些问题
  • 力扣(LeetCode)21
  • 三栏布局总结
  • 我感觉这是史上最牛的防sql注入方法类
  • 机器人开始自主学习,是人类福祉,还是定时炸弹? ...
  • ​数据链路层——流量控制可靠传输机制 ​
  • ​学习笔记——动态路由——IS-IS中间系统到中间系统(报文/TLV)​
  • ​直流电和交流电有什么区别为什么这个时候又要变成直流电呢?交流转换到直流(整流器)直流变交流(逆变器)​
  • #pragma once与条件编译
  • $ git push -u origin master 推送到远程库出错
  • $.each()与$(selector).each()
  • (01)ORB-SLAM2源码无死角解析-(66) BA优化(g2o)→闭环线程:Optimizer::GlobalBundleAdjustemnt→全局优化
  • (6)添加vue-cookie
  • (c语言版)滑动窗口 给定一个字符串,只包含字母和数字,按要求找出字符串中的最长(连续)子串的长度
  • (html转换)StringEscapeUtils类的转义与反转义方法
  • (java)关于Thread的挂起和恢复
  • (Redis使用系列) Springboot 使用redis的List数据结构实现简单的排队功能场景 九
  • (ZT)薛涌:谈贫说富
  • (附源码)ssm基于微信小程序的疫苗管理系统 毕业设计 092354
  • (附源码)计算机毕业设计ssm电影分享网站
  • (附源码)小程序 交通违法举报系统 毕业设计 242045
  • (五十)第 7 章 图(有向图的十字链表存储)
  • (学习日记)2024.03.12:UCOSIII第十四节:时基列表
  • .gitignore文件_Git:.gitignore
  • .Net Core webapi RestFul 统一接口数据返回格式
  • .net core 外观者设计模式 实现,多种支付选择
  • .NET Core跨平台微服务学习资源
  • .net framework 4.0中如何 输出 form 的name属性。
  • .NET MVC第三章、三种传值方式
  • .NET Standard 支持的 .NET Framework 和 .NET Core
  • .NET 使用 JustAssembly 比较两个不同版本程序集的 API 变化