当前位置: 首页 > news >正文

暴雨讲堂:算力高速互联催化超节点开启AI新篇章

在2024中国国际北京通信展期间,暴雨副总裁孙辉介绍了暴雨信息在超节点方案的最新突破,彰显了暴雨信息在算力和网络技术上的强大创新能力。

随着人工智能技术的飞速发展,AI大模型的参数规模正以超越摩尔定律的速度急剧扩张。在此背景下,探索如何在超大规模智算集群中实现GPU之间的高速互联,从而显著提高GPU的利用率,已成为行业面临的重要挑战。

暴雨信息凭借其在算力和网络技术领域的深厚积累,推出了更先进的超节点方案。孙辉在介绍时强调:“我们的超节点方案能够实现更多GPU之间的高速互联,为大模型的训练提供了强有力的支撑。”

大模型驱动,超节点成为AI进阶的必然选择

AI大模型的迅猛发展对计算能力提出了前所未有的挑战。为应对这一需求,企业纷纷构建智算集群,并引入并行计算技术,以加速模型训练。然而,尽管并行计算提升了整体计算效率,它也带来了同步开销和通信延迟的问题。

孙辉指出:“在万亿参数规模的模型训练中,跨机并行在带来计算效率提升的同时,也带来了新的问题——空泡现象。” 具体来说,模型在不同GPU和服务器间进行数据传输时,GPU因等待无法充分利用,导致计算过程中出现‘空泡’,从而影响了模型训练的整体效率。他进一步解释,混合专家模型(MoE)引入专家并行训练,进一步加剧了通信带宽和时延问题,使得GPU空转时间显著增加,成为大模型训练中的技术瓶颈。

为了应对这一问题,暴雨信息推出超节点解决方案。孙辉解释道:“在单个节点内增加GPU的数量,能够显著减少跨节点的通信量,进而大幅提升GPU的利用率。”由于机内带宽通常远高于跨机带宽,因此,增加单机内的GPU数量,充分利用机内带宽,是降低GPU空转比例的关键。

突破算力拓展瓶颈 OLink助力构建超节点

随着大模型训练对算力需求的不断提升,传统的机内点对点Full Mesh互联架构逐渐暴露出其扩展性不足的弊端。Full Mesh架构虽然能够提供高带宽和低延迟的通信能力,但其扩展能力有限,尤其是在GPU数量增加时,点对点的通信方式难以实现线性扩展。通常,Full Mesh架构最多只能支持单机8张GPU卡,这大大限制了大模型的训练效率。

为了构建超节点,暴雨信息创新性地推出了BLink交换技术。通过这种技术,GPU之间的通信从传统的点对点互联模式转向交换互联模式,显著提升了单机的扩展性和通信带宽,突破单机8卡的限制。孙辉强调:“通过BLink技术,可以打造更大规模的高带宽域(HBD),从而大幅提升集群算力。”通过BLink高速交换,还可以将高带宽域从机内拓展到机间,从而实现更高的扩展性,能够支持16卡以上的扩展。这种线性扩展能力,为构建更高密度的超节点奠定了坚实基础。

开放互联,构建多元化智算生态

当前,GPU互联私有总线协议的封闭性已成为多厂家芯片兼容的主要障碍,限制了硬件系统的扩展性,并增加了技术升级和维护的难度。为克服这一局限,暴雨信息在其BLink技术中采用了开放标准。

孙辉强调:“我们的BLink标准是开放的,它不仅促进了多厂家生态的繁荣,还为企业提供了更加灵活的选择。”这一技术开放性为行业带来了更大的灵活性和可持续性,有助于推动智算技术的多元化发展。

在未来的规划中,机内和机间将统一采用BLink交换高速互联,通过BLink互联协议和交换芯片,提供端到端的GPU高速互联方案。这不仅简化了智算集群的组网复杂度,还有效提升了整个系统的扩展能力和性能,使得AI模型训练和推理变得更加高效。

智算未来,超节点加速AI落地

在AI技术变革的浪潮中,暴雨信息凭借其在智算和网络领域的创新技术,正加速推动AI技术在各行业的应用落地。其新一代超节点方案在硬件架构上实现了重大突破,展现出极高的开放性和兼容性,能够在各种场景中广泛应用,促进AI技术的普及和行业发展。

孙辉强调:“通过持续的技术创新,我们将引领AI产业迈向更高效、开放的智算未来,为行业带来更多的发展机遇。”

此次采访,展现了暴雨信息在智算架构优化方面的深度研究与技术创新。未来,随着AI模型参数的不断增长和应用场景的不断扩展,暴雨信息将继续通过技术创新,助力各行各业实现数字化转型和智能化升级。

相关文章:

  • Python知识点:如何使用Python进行无人机数据处理
  • Gstreamer中,使用mp4或者flv作为视频源去推流RTP等视频流时,需要先解码在编码才能正常
  • uniapp view设置当前view之外的点击事件
  • 类与对象—python
  • Anaconda教程
  • Kubernetes服务发布基础
  • LeetCode 149. 直线上最多的点数
  • LaTeX 编辑器-TeXstudio
  • 【计算机网络最全知识点问答】第二章 物理层
  • gitlab-runner集成CI/CD完整项目部署
  • 凤凰模拟器V6中无人机如何设置“有头模式”
  • 科研绘图系列:R语言多个AUC曲线图(multiple AUC curves)
  • Linux终端简介
  • WordPress LearnPress插件 SQL注入复现(CVE-2024-8522)
  • 网络编程,端口号,网络字节序,udp
  • CoolViewPager:即刻刷新,自定义边缘效果颜色,双向自动循环,内置垂直切换效果,想要的都在这里...
  • css属性的继承、初识值、计算值、当前值、应用值
  • JavaScript工作原理(五):深入了解WebSockets,HTTP/2和SSE,以及如何选择
  • Mithril.js 入门介绍
  • nodejs实现webservice问题总结
  • orm2 中文文档 3.1 模型属性
  • Redash本地开发环境搭建
  • SegmentFault 社区上线小程序开发频道,助力小程序开发者生态
  • ubuntu 下nginx安装 并支持https协议
  • vue中实现单选
  • 从PHP迁移至Golang - 基础篇
  • 动态规划入门(以爬楼梯为例)
  • 给新手的新浪微博 SDK 集成教程【一】
  • 汉诺塔算法
  • 机器学习中为什么要做归一化normalization
  • 基于Vue2全家桶的移动端AppDEMO实现
  • 前端学习笔记之原型——一张图说明`prototype`和`__proto__`的区别
  • 腾讯优测优分享 | 你是否体验过Android手机插入耳机后仍外放的尴尬?
  • 你对linux中grep命令知道多少?
  • 关于Android全面屏虚拟导航栏的适配总结
  • # Redis 入门到精通(七)-- redis 删除策略
  • ######## golang各章节终篇索引 ########
  • #Datawhale AI夏令营第4期#AIGC文生图方向复盘
  • ( )的作用是将计算机中的信息传送给用户,计算机应用基础 吉大15春学期《计算机应用基础》在线作业二及答案...
  • (2)nginx 安装、启停
  • (arch)linux 转换文件编码格式
  • (C#)获取字符编码的类
  • (webRTC、RecordRTC):navigator.mediaDevices undefined
  • (八)Spring源码解析:Spring MVC
  • (附源码)计算机毕业设计ssm基于B_S的汽车售后服务管理系统
  • (规划)24届春招和25届暑假实习路线准备规划
  • (接口封装)
  • (算法)Travel Information Center
  • (一) springboot详细介绍
  • (原創) X61用戶,小心你的上蓋!! (NB) (ThinkPad) (X61)
  • (转)Windows2003安全设置/维护
  • (转)清华学霸演讲稿:永远不要说你已经尽力了
  • (轉貼) VS2005 快捷键 (初級) (.NET) (Visual Studio)
  • .NET Core 版本不支持的问题
  • .NET 实现 NTFS 文件系统的硬链接 mklink /J(Junction)