当前位置: 首页 > news >正文

[论文笔记] megatron 大模型超参搜索pipeline

一、批量生成配比

# 保证element + "en"的总体占比不变
# 从element_min_ratio到element_max_ratio,生成element在这个范围内的超参搜索配比。
import pandas as pd
import numpy as np
pd.set_option('display.max_colwidth', None)df = pd.read_csv("qwen2_data_ratio_lan17_dclm_code.csv", dtype={'dir': str, 'lang': str, 'size': float})
df_grouped = df.groupby(['lang']).sum().rename(columns={"size":"total_size"})
df_grouped.reset_index()initial_lang = ['en','zh','es','fr','pt','ko','ja','tr','vi','th','ms','id','ar','it','de','pl','ur','sft','edu'

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【练习】哈希表的使用
  • Python切片技巧,带你轻松提取数组子集!
  • NeRF笔记
  • SpringBoot 基于iText 根据PDF模板动态生成文件
  • OSError: [E050] Can‘t find model ‘en_core_web_sm‘.
  • Python爬虫(一文通)
  • OverflowError: cannot convert float infinity to integer
  • Golang使用Quic-Go开源库实现Quic客户端和服务端
  • 企业数据治理之主数据---供应商主数据
  • Java核心API——io类缓冲流
  • 什么是杨氏模量
  • 22AP10 SS524 平替 海思HI3521DV200 可提供开发资料
  • IP-RDS-222、IP-PRZ-59-AM12、EG-TRZ-42-L、EG-TRZ-42-H比例减压阀放大器
  • Qt详解QHostInfo
  • 【python报错已解决】AttributeError: module ‘PIL.Image‘ has no attribute ‘ANTIALIAS‘
  • 2019.2.20 c++ 知识梳理
  • ES6核心特性
  • httpie使用详解
  • IOS评论框不贴底(ios12新bug)
  • Java知识点总结(JDBC-连接步骤及CRUD)
  • Mysql5.6主从复制
  • TypeScript实现数据结构(一)栈,队列,链表
  • Vue源码解析(二)Vue的双向绑定讲解及实现
  • 从0实现一个tiny react(三)生命周期
  • 分布式事物理论与实践
  • 解析带emoji和链接的聊天系统消息
  • 前端设计模式
  • 浅谈Kotlin实战篇之自定义View图片圆角简单应用(一)
  • 浅谈web中前端模板引擎的使用
  • 如何借助 NoSQL 提高 JPA 应用性能
  • 数组大概知多少
  • 翻译 | The Principles of OOD 面向对象设计原则
  • ​创新驱动,边缘计算领袖:亚马逊云科技海外服务器服务再进化
  • ​人工智能之父图灵诞辰纪念日,一起来看最受读者欢迎的AI技术好书
  • #预处理和函数的对比以及条件编译
  • #知识分享#笔记#学习方法
  • ${ }的特别功能
  • $emit传递多个参数_PPC和MIPS指令集下二进制代码中函数参数个数的识别方法
  • (10)STL算法之搜索(二) 二分查找
  • (Java入门)学生管理系统
  • (LeetCode) T14. Longest Common Prefix
  • (react踩过的坑)antd 如何同时获取一个select 的value和 label值
  • (SpringBoot)第二章:Spring创建和使用
  • (补)B+树一些思想
  • (几何:六边形面积)编写程序,提示用户输入六边形的边长,然后显示它的面积。
  • (十八)用JAVA编写MP3解码器——迷你播放器
  • (十二)Flink Table API
  • (实测可用)(3)Git的使用——RT Thread Stdio添加的软件包,github与gitee冲突造成无法上传文件到gitee
  • (转)菜鸟学数据库(三)——存储过程
  • (转载)hibernate缓存
  • (转载)虚函数剖析
  • (转载)虚幻引擎3--【UnrealScript教程】章节一:20.location和rotation
  • (总结)Linux下的暴力密码在线破解工具Hydra详解
  • ****Linux下Mysql的安装和配置
  • .FileZilla的使用和主动模式被动模式介绍