当前位置: 首页 > news >正文

huggingface 数据集和模型加速下载, hfdata 输出为json

如果有碰到huggingface的数据集下载慢,可以使用国内镜像代理下载,首先打开命令行,输入下面的环境变量:

export HF_ENDPOINT=https://hf-mirror.com

然后执行你自己的代码,比如:

from datasets import load_dataset
ds = load_dataset("openai/gsm8k", "main")
for split, split_dataset in ds.items():split_dataset.to_json(f"gsm8k-{split}.jsonl")

你会发现数据集的下载速度变快了:

Downloading readme: 7.94kB [00:00, 7.75MB/s]
Downloading data: 100%|██████████████████████████████████████████████████████████████| 2.31M/2.31M [00:06<00:00, 364kB/s]
Downloading data: 100%|████████████████████████████████████████████████████████████████| 419k/419k [00:00<00:00, 783kB/s]
Generating train split: 100%|██████████████████████████████████████████████| 7473/7473 [00:00<00:00, 86953.96 examples/s]
Generating test split: 100%|███████████████████████████████████████████████| 1319/1319 [00:00<00:00, 58370.39 examples/s]

参考文献

How do I save a Huggingface dataset?

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 实验二:图像灰度修正
  • 【vue深入学习第1章】Vue.js 中的 Ajax 处理:vue-resource 库的深度解析
  • 聊聊自动驾驶中的路径和轨迹
  • 算法力扣刷题记录 四十八【513.找树左下角的值】
  • Oralce笔记-解决Oracle18c中ORA-28001: 口令已经失效
  • 【持续集成_05课_Linux部署SonarQube及结合开发项目部署】
  • CSS3实现彩色变形爱心动画【附源码】
  • Linux命令更新-sort 和 uniq 命令
  • 【车载测试收徒】【UDS诊断中的协议:ISO-14229中文】
  • bash: ip: command not found
  • MagicClothing: 给人物照片换装的ComfyUI工作流(干货满满)
  • SpringMVC源码分析
  • SpringBoot+Vue实现简单的文件上传(Excel篇)
  • 【机器翻译】基于术语词典干预的机器翻译挑战赛
  • Jenkins 离线升级
  • [nginx文档翻译系列] 控制nginx
  • [译]CSS 居中(Center)方法大合集
  • Apache Pulsar 2.1 重磅发布
  • css系列之关于字体的事
  • C学习-枚举(九)
  • httpie使用详解
  • jquery ajax学习笔记
  • leetcode-27. Remove Element
  • Python 使用 Tornado 框架实现 WebHook 自动部署 Git 项目
  • UMLCHINA 首席专家潘加宇鼎力推荐
  • vue学习系列(二)vue-cli
  • Webpack 4x 之路 ( 四 )
  • Webpack入门之遇到的那些坑,系列示例Demo
  • 闭包--闭包之tab栏切换(四)
  • 程序员最讨厌的9句话,你可有补充?
  • 每天10道Java面试题,跟我走,offer有!
  • 适配iPhoneX、iPhoneXs、iPhoneXs Max、iPhoneXr 屏幕尺寸及安全区域
  • 要让cordova项目适配iphoneX + ios11.4,总共要几步?三步
  • 在 Chrome DevTools 中调试 JavaScript 入门
  • 智能合约开发环境搭建及Hello World合约
  • Linux权限管理(week1_day5)--技术流ken
  • 阿里云服务器购买完整流程
  • 如何用纯 CSS 创作一个货车 loader
  • ​​​​​​​GitLab 之 GitLab-Runner 安装,配置与问题汇总
  • ​ssh免密码登录设置及问题总结
  • ​VRRP 虚拟路由冗余协议(华为)
  • ​人工智能之父图灵诞辰纪念日,一起来看最受读者欢迎的AI技术好书
  • # Redis 入门到精通(一)数据类型(4)
  • (6)添加vue-cookie
  • (C语言)输入自定义个数的整数,打印出最大值和最小值
  • (iPhone/iPad开发)在UIWebView中自定义菜单栏
  • (LeetCode 49)Anagrams
  • (多级缓存)缓存同步
  • (翻译)Entity Framework技巧系列之七 - Tip 26 – 28
  • (附源码)springboot宠物医疗服务网站 毕业设计688413
  • (简单) HDU 2612 Find a way,BFS。
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第3章 信息系统治理(一)
  • (转)利用ant在Mac 下自动化打包签名Android程序
  • .net core 微服务_.NET Core 3.0中用 Code-First 方式创建 gRPC 服务与客户端
  • .Net IE10 _doPostBack 未定义