当前位置: 首页 > news >正文

XetHub 加入 Hugging Face!

我们非常激动地正式宣布,Hugging Face 已收购 XetHub 🔥

XetHub 是一家位于西雅图的公司,由 Yucheng Low、Ajit Banerjee 和 Rajat Arya 创立,他们之前在 Apple 工作,构建和扩展了 Apple 的内部机器学习基础设施。XetHub 的使命是为 AI 开发提供软件工程的最佳实践。XetHub 开发了技术,能够使 Git 扩展到 TB 级别的存储库,并使团队能够探索、理解和共同处理大型不断变化的数据集和模型。不久之后,他们加入了一支由 12 名才华横溢的团队成员组成的团队。你可以在他们的新组织页面关注他们:hf.co/xet-team。

我们在 Hugging Face 的共同目标

XetHub 团队将帮助我们通过切换到我们自己的、更好的 LFS 版本作为 Hub 存储库的存储后端,解锁 Hugging Face 数据集和模型的未来五年增长。

—— Julien Chaumond, Hugging Face CTO

早在 2020 年,当我们构建第一个 Hugging Face Hub 版本时,我们决定将其构建在 Git LFS 之上,因为它相当知名,并且是启动 Hub 使用的合理选择。

然而,我们当时就知道,某个时候我们会希望切换到我们自己的、更优化的存储和版本控制后端。Git LFS——即使它代表的是大文件存储——也从未适合我们在 AI 中处理的那种类型的大文件,这些文件不仅大,而且非常大 😃。

未来的示例用例 🔥 – 这将如何在 Hub 上实现

假设你有一个 10GB 的 Parquet 文件。你添加了一行。今天你需要重新上传 10GB。使用 XetHub 的分块文件和重复数据删除技术,你只需要重新上传包含新行的几个块。

另一个例子是 GGUF 模型文件:假设@bartowski想要更新 Llama 3.1 405B 存储库的 GGUF 头部中的一个元数据值。将来,bartowski 只需重新上传几千字节的单个块,使这个过程更加高效 🔥。

@bartowskihttps://hf.co/bartowski

随着该领域在未来几个月内转向万亿参数模型 (感谢 Maxime Labonne 提供新的BigLlama-3.1-1T🤯) ,我们希望这种新技术将解锁社区和企业内部的新规模。

BigLlama-3.1-1Thttps://hf.co/mlabonne/BigLlama-3.1-1T-Instruct

最后,随着大数据集和大模型的

出现,协作也面临挑战。团队如何共同处理大型数据、模型和代码?用户如何理解他们的数据和模型是如何演变的?我们将努力找到更好的解决方案来回答这些问题。

Hub 存储库的有趣当前统计数据 🤯🤯

  • 存储库数量:130 万个模型,45 万个数据集,68 万个空间

  • 累计总大小:LFS 中存储了 12PB (2.8 亿个文件) / git (非 LFS) 中存储了 7.3TB

  • Hub 每日请求次数:10 亿次

  • Cloudfront 每日带宽:6PB 🤯

来自@ylow的个人话语

@ylowhttps://hf.co/yuchenglow

我在 AI/ML 领域工作了 15 年以上,见证了深度学习如何慢慢接管视觉、语音、文本,甚至越来越多的每个数据领域。

我严重低估了数据的力量。几年前看起来不可能的任务 (如图像生成) ,实际上通过数量级更多的数据和能够吸收这些数据的模型变得可能。从历史上看,这是一再重复的机器学习历史教训。

自从我的博士学位以来,我一直在数据领域工作。首先在初创公司 (GraphLab/Dato/Turi) 中,我使结构化数据和机器学习算法在单机上扩展。之后被 Apple 收购,我致力于将 AI 数据管理扩展到超过 100PB,支持数十个内部团队每年发布数百个功能。2021 年,与我的联合创始人们一起,在 Madrona 和其他天使投资者的支持下,创立了 XetHub,将我们在实现大规模协作方面的经验带给全世界。

XetHub 的目标是使 ML 团队像软件团队一样运作,通过将 Git 文件存储扩展到 TB 级别,无缝实现实验和可重复性,并提供可视化功能来理解数据集和模型的演变。

我和整个 XetHub 团队都非常高兴能够加入 Hugging Face,并继续我们的使命,通过将 XetHub 技术整合到 Hub 中,使 AI 协作和开发更加容易,并向全球最大的 ML 社区发布这些功能!

最后,我们的基础设施团队正在招聘 👯

如果你喜欢这些主题,并希望为开源 AI 运动构建和扩展协作平台,请联系我们!

欢迎访问:hf.co/xet-team。


英文原文:https://hf.co/blog/xethub-joins-hf

原文作者: Yucheng Low, Julien Chaumond

译者: AdinaY

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 基于OpenMV与STM32的数据通信项目(代码开源)
  • 鸿蒙HarmonyOS开发:常用布局及实用技巧
  • MYSQL必知必会 - (一)了解sql + (二)MySQL简介
  • 《RT-DETR》论文笔记
  • 手写mybatis拦截器自动填充数据
  • Midjourney进阶-创建与管理自己的专属参数
  • vscode 目录管理
  • (南京观海微电子)——示波器使用介绍
  • Linux-Haproxy搭建Web群集
  • Android SurfaceFlinger——Vsync监听逻辑(五十三)
  • 重启人生计划-大梦方醒
  • lsync+nfs+rsync
  • TCP回显服务器
  • docker安装redis单机部署的redis.conf配置
  • 形态学处理方法
  • bearychat的java client
  • js ES6 求数组的交集,并集,还有差集
  • mysql外键的使用
  • node-sass 安装卡在 node scripts/install.js 解决办法
  • React-flux杂记
  • SwizzleMethod 黑魔法
  • Vue组件定义
  • Vultr 教程目录
  • 程序员最讨厌的9句话,你可有补充?
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 浮现式设计
  • 关于for循环的简单归纳
  • 官方解决所有 npm 全局安装权限问题
  • 缓存与缓冲
  • 前言-如何学习区块链
  • 探索 JS 中的模块化
  • 腾讯视频格式如何转换成mp4 将下载的qlv文件转换成mp4的方法
  • 问题之ssh中Host key verification failed的解决
  • 我看到的前端
  • 最简单的无缝轮播
  • LIGO、Virgo第三轮探测告捷,同时探测到一对黑洞合并产生的引力波事件 ...
  • 数据可视化之下发图实践
  • #### go map 底层结构 ####
  • #DBA杂记1
  • #我与Java虚拟机的故事#连载01:人在JVM,身不由己
  • (9)目标检测_SSD的原理
  • (c语言)strcpy函数用法
  • (Java企业 / 公司项目)点赞业务系统设计-批量查询点赞状态(二)
  • (M)unity2D敌人的创建、人物属性设置,遇敌掉血
  • (Python) SOAP Web Service (HTTP POST)
  • (windows2012共享文件夹和防火墙设置
  • (附源码)ssm高校社团管理系统 毕业设计 234162
  • (四)鸿鹄云架构一服务注册中心
  • (一)C语言之入门:使用Visual Studio Community 2022运行hello world
  • (转)C#调用WebService 基础
  • (转)h264中avc和flv数据的解析
  • (转)关于pipe()的详细解析
  • **PyTorch月学习计划 - 第一周;第6-7天: 自动梯度(Autograd)**
  • .net mvc actionresult 返回字符串_.NET架构师知识普及
  • .NET MVC之AOP