当前位置: 首页 > news >正文

首届IEEE RAS峰会,为什么大厂阿里、字节、腾讯都参加了?

"RAS in Data Centers 2024" 首届IEEE RAS(Reliability, Availability, and Serviceability,即可靠性、可用性和可维护性)在数据中心峰会在2024年6月11日至12日举行,地点设在美国加利福尼亚州圣克拉拉市的圣克拉拉万豪酒店(Santa Clara Marriott)。这一峰会主要是为了探讨和交流数据中心领域中关于RAS的重要议题,尤其关注如何提升数据中心基础设施和服务的可靠性、确保系统的高可用性以及优化维护操作,以支持日益增长的云计算、大数据处理、人工智能等应用对数据中心提出的严格要求。

图片

随着数据中心规模的扩大和复杂性的增加,确保系统的RAS特性变得越来越重要。技术进步如量子计算、边缘计算、以及持续增长的数据流量对数据中心的硬件和软件架构提出了更高要求,需要新的策略和技术来应对潜在的故障点,减少停机时间,并简化维护流程。

我们先预览下这个峰会两天的行程:

第一天:6/11。主论坛,针对行业RAS的现状和发展、OCP标准等进行了一天的讨论与分享。该部分就简单略过了。

第二天:6/12。主要有6个分论坛:分别涵盖Data Center RAS、Memory and Interconnects(包括CXL RAS)、AI and RAS、Testing and Resilience四个主题的讨论。

图片

图片

图片

从参会者可以看到:主要是以Intel领衔,国外厂商包括Intel、Meta、AMD、Microsoft、Hynix等、国内厂商主要有:字节、阿里、腾讯、Scaleflux,还有一些国外大学。

会议还未开始,小编还未收集到这些topic的演讲材料。这里主要是从上面会议日程中,可以看到针对内存故障预测以及可靠性提升的话题,已经吸引了国内外大厂的目标,特别是以Intel为首,与各大互联网厂商都有相关合作,这里做一个简单总结,供大家参考。(声明:本文涉及信息均为公开信息,包括公开发表论文以及Intel官网,仅代表个人观点,不涉及任何组织或者机构,仅供学习交流

在数据中心的运维中,DRAM作为服务器的主要存储资源,因其速度和成本效益而备受青睐。然而,DRAM故障却可能导致计算错误,直接影响服务器的可靠性、可用性和可维护性(RAS),进而威胁数据中心的持续运营。传统上,内存故障往往直到服务器崩溃才被发现。

内存故障形式多样,包括单比特错误、单行错误和多数组错误,且每种错误都有其特定的频率模式。某些内存故障具有特定的受害模式,容易演变成不可纠正错误(UE),增加了风险。部分故障间歇出现,难以追踪,而另一些则可复制。

图片

目前,没有一劳永逸的方案能解决所有内存错误问题,例如,随机单比特错误可通过ECC修正,其他类型的错误则需采用不同技术,如系统ECC、SDDC、EDAC、PPR及英特尔MRT。

扩展阅读:

  • 深度好文|如何实现服务器内存故障监控与预测?

  • 一文读懂DDR内存基础知识|值得收藏

  • 如何利用CXL技术突破内存墙?

相关文章:

  • 让GNSSRTK不再难【第一天】
  • **《Linux/Unix系统编程手册》读书笔记24章**
  • L2-002 链表去重(C++)
  • PyTorch tutorials:快速学会使用PyTorch
  • 从0开始学人工智能测试节选:Spark -- 结构化数据领域中测试人员的万金油技术(四)
  • Jmeter —— jmeter设置HTTP信息头管理器模拟请求头
  • Python 连接 MySQL 及 SQL增删改查(主要使用sqlalchemy)
  • 基于百度翻译API的火车头PHP翻译插件,可以翻译HTML片段
  • mybatis-plus 多租户方案1使用和坑注意事项,方案是需要实现租户功能的表都增加租户id字段
  • 【Linux多线程】线程的终止、等待和分离
  • Bond 网卡绑定技术学习
  • k8s-CCE创建工作负载变量引用
  • jquery.datetimepicker无法添加清除按钮的问题
  • eNSP学习——RIP的路由引入
  • 记录一下npm安装时的错误排查过程
  • 【Leetcode】101. 对称二叉树
  • [case10]使用RSQL实现端到端的动态查询
  • Electron入门介绍
  • emacs初体验
  • javascript 总结(常用工具类的封装)
  • JS创建对象模式及其对象原型链探究(一):Object模式
  • spring boot 整合mybatis 无法输出sql的问题
  • 阿里云应用高可用服务公测发布
  • 从PHP迁移至Golang - 基础篇
  • 回流、重绘及其优化
  • 记录:CentOS7.2配置LNMP环境记录
  • 一个SAP顾问在美国的这些年
  • 3月7日云栖精选夜读 | RSA 2019安全大会:企业资产管理成行业新风向标,云上安全占绝对优势 ...
  • 微龛半导体获数千万Pre-A轮融资,投资方为国中创投 ...
  • ​​​​​​​sokit v1.3抓手机应用socket数据包: Socket是传输控制层协议,WebSocket是应用层协议。
  • ​HTTP与HTTPS:网络通信的安全卫士
  • ​ssh-keyscan命令--Linux命令应用大词典729个命令解读
  • ​软考-高级-系统架构设计师教程(清华第2版)【第20章 系统架构设计师论文写作要点(P717~728)-思维导图】​
  • #Js篇:单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()
  • $().each和$.each的区别
  • (2024.6.23)最新版MAVEN的安装和配置教程(超详细)
  • (3)选择元素——(14)接触DOM元素(Accessing DOM elements)
  • (C++17) optional的使用
  • (机器学习-深度学习快速入门)第三章机器学习-第二节:机器学习模型之线性回归
  • (篇九)MySQL常用内置函数
  • (十一)手动添加用户和文件的特殊权限
  • (完整代码)R语言中利用SVM-RFE机器学习算法筛选关键因子
  • (转)Google的Objective-C编码规范
  • (轉貼) 寄發紅帖基本原則(教育部禮儀司頒布) (雜項)
  • ****三次握手和四次挥手
  • .net core 依赖注入的基本用发
  • .Net Core缓存组件(MemoryCache)源码解析
  • .Net Remoting常用部署结构
  • .NET导入Excel数据
  • .net和jar包windows服务部署
  • .NET是什么
  • .NET下ASPX编程的几个小问题
  • .NET中两种OCR方式对比
  • [ 转载 ] SharePoint 资料
  • [2023年]-hadoop面试真题(一)