[论文笔记] 多语言配比的自动化超参搜索
auto_paras_search_data_ratio_generate.py
import subprocess
import pandas as pd
import os
import itertools
import warnings
warnings.filterwarnings("ignore")
# 🌹 Lang_Ratio: 按照语言个数划分阶梯
d_list = [{'lang': ['en', 'id', 'vi', 'th', 'ms', 'sft'],'lang_ratio': [0.5, 0.125, 0.125, 0.125, 0.125, 0.065]}, # 单语言阶梯配比{'lang': ['en', 'id', 'vi', 'th', 'ms', 'sft'],'lang_ratio': [0.35, 0.1, 0.1, 0.35, 0.1, 0.065]}, # 双主语言阶梯配比{'lang': ['en', 'id', 'vi', 'th', 'ms', 'sft'],'lang_ratio': [0.2, 0.2, 0.2, 0.2, 0.2, 0.06