当前位置: 首页 > news >正文

深度学习中常用概念总结

最近在做深度学习,里面涉及到很多概念,有的名称都差不多容易记混。所以写这篇文章总结一下。眼过千遍不如手过一遍。

1. 轮数(Epochs):
    一轮(Epoch)指的是整个训练数据集在训练过程中被完整使用一次。每个 Epoch 包含多个批次(batches),在每个 Epoch 结束后,模型通常会在验证集上进行评估。

2. 步数(Steps):
    步数(Steps)通常指的是训练过程中的迭代次数。在每个 Step 中,模型进行一次前向传播和后向传播。

3. 批处理大小(Batch Size):
     批处理大小(Batch Size)是指每次迭代中用于训练的样本数量。它影响计算资源的利用和模型训练的稳定性。

4. 微批处理大小(Micro-batch-size):
     微批处理大小是在模型并行或流水线并行中使用的概念,指的是在每个 GPU 或每个并行阶段中处理的批次大小。它是批处理大小的进一步划分。

5. 学习率(Learning Rate):
    学习率是优化算法中用于调整模型权重的步长。它决定了在每次迭代中参数更新的幅度。

6. 训练吞吐量:
     训练吞吐量指模型训练过程中单位时间内能够处理的数据量,通常以样本/秒或批次/秒来衡量。

7. 加速器内存(Accelerator Memory):
    加速器内存是专用于支持 GPU 或 TPU 等硬件加速器的高性能计算任务的内存,用于存储模型参数、中间计算结果等。

8. 词大小(Word-size):
    在深度学习中,词大小通常指的是模型中词嵌入(Word Embedding)的维度,即表示每个词的向量的长度。

9. 数据并行(Data Parallel):
    数据并行是一种并行化技术,通过将数据集分割成多个批次分配到多个处理器上同时训练,以此来加速训练过程。

10. 上下文并行大小(Context Parallel Size):
     上下文并行大小可能是指在使用特定深度学习框架时,如 Megatron-LM 中的设置,用于控制跨多个 GPU 分配模型的不同部分的方式。

11. 张量模型并行大小(Tensor Model Parallel Size):
      张量模型并行大小是指在模型并行中,模型的张量如何分配到不同的处理器上。它决定了模型的哪一部分将在不同的 GPU 上计算。

12. 管道模型并行大小(Pipeline Model Parallel Size):
      管道模型并行大小是指将模型分成多个阶段,每个阶段可以并行处理不同的数据微批次,从而提高计算效率和资源利用率。
 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 一次sql请求,返回分页数据和总条数
  • 【深度学习】【语音TTS】GPT-SoVITS v2 实战,训练一个人的音色,Docker镜像
  • Centos7安装Redis(采用docker安装方式)
  • 贪吃蛇(C语言详解)
  • 【精通SDL之----SDL_RenderReadPixels截屏】
  • Jenkins默认工作目录修改及迁移(Windows)
  • 《中国数据库前世今生》——历史的深度与未来的展望
  • 迷茫而又焦虑
  • Java | Leetcode Java题解之第335题路径交叉
  • Vue2 消息订阅与发布
  • java中List列表转成子父集列表
  • 一口气把halcon的所有运算符说清楚
  • python爬虫滑块验证及各种加密函数(基于ddddocr进行的一层封装)
  • 什么是NLP实体识别?
  • 群晖NAS本地搭建可远程交互的大型语言模型LLM聊天机器人
  • 【391天】每日项目总结系列128(2018.03.03)
  • 2017届校招提前批面试回顾
  • egg(89)--egg之redis的发布和订阅
  • ES6系统学习----从Apollo Client看解构赋值
  • Java 11 发布计划来了,已确定 3个 新特性!!
  • javascript从右向左截取指定位数字符的3种方法
  • Mithril.js 入门介绍
  • mysql中InnoDB引擎中页的概念
  • Netty 框架总结「ChannelHandler 及 EventLoop」
  • Objective-C 中关联引用的概念
  • opencv python Meanshift 和 Camshift
  • 阿里云应用高可用服务公测发布
  • 从0实现一个tiny react(三)生命周期
  • 二维平面内的碰撞检测【一】
  • 分享几个不错的工具
  • 聚类分析——Kmeans
  • 排序(1):冒泡排序
  • ​MySQL主从复制一致性检测
  • ### Error querying database. Cause: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException
  • #Datawhale AI夏令营第4期#AIGC文生图方向复盘
  • #DBA杂记1
  • #define用法
  • #vue3 实现前端下载excel文件模板功能
  • $.each()与$(selector).each()
  • (7)svelte 教程: Props(属性)
  • (C++20) consteval立即函数
  • (Java岗)秋招打卡!一本学历拿下美团、阿里、快手、米哈游offer
  • (不用互三)AI绘画:科技赋能艺术的崭新时代
  • (附源码)php投票系统 毕业设计 121500
  • (附源码)ssm基于微信小程序的疫苗管理系统 毕业设计 092354
  • (免费领源码)python#django#mysql公交线路查询系统85021- 计算机毕业设计项目选题推荐
  • (一)Java算法:二分查找
  • (最全解法)输入一个整数,输出该数二进制表示中1的个数。
  • .NET / MSBuild 扩展编译时什么时候用 BeforeTargets / AfterTargets 什么时候用 DependsOnTargets?
  • .NET Core/Framework 创建委托以大幅度提高反射调用的性能
  • .Net 访问电子邮箱-LumiSoft.Net,好用
  • .NET:自动将请求参数绑定到ASPX、ASHX和MVC(菜鸟必看)
  • .NET6 命令行启动及发布单个Exe文件
  • .net分布式压力测试工具(Beetle.DT)
  • .Net中的设计模式——Factory Method模式