当前位置: 首页 > news >正文

字节跳动万卡集群网络分析

从公开的信息披露,截至2023年9月,字节跳动已经建立超过一万张的英伟达Ampere架构GPU集群,目前正在建设Hopper架构的集群。英伟达Ampere架构主要包括A100和A800型号的芯片,Hopper架构相较前者则更新,主要包括H100和H800芯片

字节和北大公布的论文,关于网络拓扑的描述主要是其中一章节:

Network topology. Our datacenter network is built with highperformance switches based on Broadcom Tomahawk 4 chips. The total bandwidth of each Tomahawk chip is 25.6Tbps with 64×400Gbps ports. Three layers of switches are connected in a CLOS-like topology to connect more than 10,000 GPUs. For switches at each layer, the bandwidth percentage between downlink and uplink is 1:1. That is, 32 ports are used as downlink and 32 ports are used as uplink. The network provides high bandwidth with a small diameter. Every node can communicate with other nodes within a limited number of hops.

Reducing ECMP hashing conflicts. We carefully design the network topology and schedule network traffic to reduce ECMP hashing conflicts. First, at the top-of-rack (ToR) switch level, one 400G downlink port is split into two 200G downlink ports with specific AOC cables. The conflict probability is reduced as the bandwidth of each uplink is double of that of a downlink. Second, eight 200G NICs on the server is connected to eight different switches in a multi-rail way. The number of GPU servers connected by the same sets of ToR switches can reach 64. And we strategically schedule the dataintensive nodes from our training tasks to operate under the

相关文章:

  • UniAudio 1.5:大型语言模型(LLMs)驱动的音频编解码器
  • 项目部署(前后端)
  • js文件导出功能
  • 2713. 矩阵中严格递增的单元格数
  • Ubuntu20.04环境下Baxter机器人开发环境搭建
  • 深度剖析整型和浮点型数据在内存中的存储(C语言)
  • LabVIEW电源适应能力检测系统
  • JDBC常见的几种连接池使用(C3P0、Druid、HikariCP 、DBCP)
  • 蓝牙解码芯片TD5161A,TWS蓝牙音箱芯片—拓达半导体
  • GPT4v和Gemini-Pro调用对比
  • CachyOS简介
  • springBoot不同module之间互相依赖
  • 前字节员工自爆:我原腾讯一哥们,跳槽去小公司做小领导,就签了竞业,又从小公司离职去了对手公司,结果被发现了,小公司要他赔80万
  • 鸿蒙HarmonyOS实战:渲染控制、路由案例
  • C语言—数据在内存中的存储
  • php的引用
  • [Vue CLI 3] 配置解析之 css.extract
  • Brief introduction of how to 'Call, Apply and Bind'
  • EOS是什么
  • go语言学习初探(一)
  • HTML-表单
  • httpie使用详解
  • java概述
  • laravel5.5 视图共享数据
  • springboot_database项目介绍
  • 阿里云容器服务区块链解决方案全新升级 支持Hyperledger Fabric v1.1
  • 基于 Ueditor 的现代化编辑器 Neditor 1.5.4 发布
  • 基于webpack 的 vue 多页架构
  • 如何抓住下一波零售风口?看RPA玩转零售自动化
  • 删除表内多余的重复数据
  • 世界编程语言排行榜2008年06月(ActionScript 挺进20强)
  • 学习Vue.js的五个小例子
  • 找一份好的前端工作,起点很重要
  • ​埃文科技受邀出席2024 “数据要素×”生态大会​
  • #《AI中文版》V3 第 1 章 概述
  • #if等命令的学习
  • #免费 苹果M系芯片Macbook电脑MacOS使用Bash脚本写入(读写)NTFS硬盘教程
  • (1)bark-ml
  • (2)STL算法之元素计数
  • (3)STL算法之搜索
  • (iPhone/iPad开发)在UIWebView中自定义菜单栏
  • (poj1.2.1)1970(筛选法模拟)
  • (补充):java各种进制、原码、反码、补码和文本、图像、音频在计算机中的存储方式
  • (附源码)spring boot北京冬奥会志愿者报名系统 毕业设计 150947
  • (附源码)ssm本科教学合格评估管理系统 毕业设计 180916
  • (算法)区间调度问题
  • (转)fock函数详解
  • (转)利用PHP的debug_backtrace函数,实现PHP文件权限管理、动态加载 【反射】...
  • .bashrc在哪里,alias妙用
  • .libPaths()设置包加载目录
  • .NET 8.0 发布到 IIS
  • .net core MVC 通过 Filters 过滤器拦截请求及响应内容
  • .NET Reactor简单使用教程
  • .net web项目 调用webService
  • .net 反编译_.net反编译的相关问题