当前位置: 首页 > news >正文

BMC解决方案丨服务器故障诊断与预测平台方案设计与实现

近日,OurBMC社区理事成员单位浪潮计算机科技有限公司基于开放原子开源大赛的成果梳理了一份成熟的可落地方案——《基于BMC技术的服务器故障诊断与预测平台方案设计与实现》。该方案为开放原子开源大赛的冠军之作,极大推动了社区产业化落地的发展和工作。

产业化落地SIG包括软硬件及系统解决方案,重点对产业化落地中遇到的困难点进行分析,并贡献解决方案,为产业化做贡献。

《基于BMC技术的服务器故障诊断与预测平台方案设计与实现》针对 “故障预测” 提出了DTF(Dynamic Threshold Funnel 动态阈值漏斗)算法和CPU高温降频算法。DTF算法解决了用户频繁收到CE(Correctable Error 可纠正错误)告警的问题,并利用CE告警对固定位置部件进行故障预测,提前预知服务器部件的健康状态。CPU高温降频算法可辅助CPU降温,一方面缓解了整机散热的压力,另一方面也降低了CPU因高温带来的一系列损耗和负面影响。

服务器故障诊断与预测平台整体方案

本方案系统架构如下图所示,以飞腾服务器芯片搭配浪潮自研主板为基础硬件,从BMC软件应用角度,设计出集故障数据收集、故障诊断、故障预测为一体的完整方案,主要监控CPU、MEM、PCIe、NVMe、PSU等部件。

图片

故障采集模块的实现

· CPU、MEM、PCIe故障数据采集

OS运行期间,当CPU发生error interrupt或者error register时,PBF模块对硬件错误信息进行收集,并通过MM(Management Mode)模块以及SDEI(software Delegated exception interface)模块将CPER(common platform error record)格式的错误数据发送给BMC和OS。

· PSU、NVMe故障数据采集

针对NVMe硬盘,可以通过BMC透过Smbus协议读NVMe的寄存器,具体命令为i2ctransfer -y {bus} w2@0xd4 0x00 0x04 r1,或者通过代码中Smbus标准接口获取寄存器信息。

针对PSU电源,可以通过BMC透过Pmbus协议读PSU的寄存器,具体命令为i2ctransfer -y {bus} w1@addr 0x79  r2, 或者通过代码中Pmbus标准接口获取寄存器信息。

故障诊断模块的实现

· 对CPU、MEM、PCIe故障数据进行诊断

BMC在进行CPER数据组包接收后,若判断接收到完整的CPER数据,会进行后续数据解析处理。主要流程包括对CPER格式转换,把原始CPER数据转换成JSON格式以及根据所得JSON数据提取重要字段记录错误信息。

图片

· 对PSU、NVMe故障数据进行诊断

针对NVMe硬盘,可以通过BMC透过I2C链路读NVMe的寄存器,当使用Smbus 0x00命令读取0x04寄存器时获取到的数据就是NVMe硬盘的寿命。

BMC通过Smbus接口与PSU进行通讯,通过读取PSU的STATUS_WORD(0x79)寄存器来获取PSU的状态,当电源有Predict_failure情况时上报SEL日志。

故障预测模块的实现

· 对CPU、MEM、PCIe故障数据进行预测

针对飞腾服务器CE告警,采用DTF( Dynamic Threshold Funnel )算法进行故障预测,其故障预测流程图如下:

图片

· 对PSU、NVMe故障数据进行预测

根据IPMI协议,当满足如下条件时,说明电源有Predict_failure情况,此时上报SEL日志。

图片

· NVMe故障预测

BMC通过mi basic command命令向NVMe的物理地址发送命令码获取到NVMe的状态、使用的驱动器寿命百分比(PDLU)等信息,进而对NVMe进行故障预测。获取到NVMe的使用寿命信息后,BMC会将其与预设的阈值进行比较,设定当使用寿命低于10%时,系统将触发告警机制,生成SEL日志。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 计算机毕业设计选题推荐-医疗就诊平台-在线医疗问诊系统-Java/Python项目实战
  • 【Android】根据URI获取文件扩展名或MimeType
  • Android SurfaceFlinger——共享内存读写流程(五十五)
  • 探索微服务架构中的动态服务发现与调用:使用 Nacos 与 Spring Cloud OpenFeign 打造高效订单管理系统
  • 如何将 Parallels Desktop 许可证密钥移至新的 Mac?
  • Android 获取通话记录
  • 【Verilog 数字系统设计教程】Verilog 基础:硬件描述语言入门指南
  • 登录校验组件 Spring Security OAuth2 详解
  • 【CVPR‘24】BP-Net:用于深度补全的双边传播网络,新 SOTA!
  • IOS 17 基于UITabBarController实现首页TabBar
  • 在URL链接中指定浏览器跳转到PDF文件的指定页码
  • python计算机视觉——第四章 照相机模型与增强现实
  • OpenCV绘图函数(8)填充凸多边形函数fillConvexPoly()的使用
  • 基于 Householder 变换的 qr 分解 算法与源码实现
  • sdk监控平台
  • 0x05 Python数据分析,Anaconda八斩刀
  • 230. Kth Smallest Element in a BST
  • ES6语法详解(一)
  • Eureka 2.0 开源流产,真的对你影响很大吗?
  • Hibernate【inverse和cascade属性】知识要点
  • Java面向对象及其三大特征
  • jquery ajax学习笔记
  • Linux快速配置 VIM 实现语法高亮 补全 缩进等功能
  • SOFAMosn配置模型
  • Spring Cloud(3) - 服务治理: Spring Cloud Eureka
  • Three.js 再探 - 写一个跳一跳极简版游戏
  • webgl (原生)基础入门指南【一】
  • XForms - 更强大的Form
  • XML已死 ?
  • 机器人定位导航技术 激光SLAM与视觉SLAM谁更胜一筹?
  • 极限编程 (Extreme Programming) - 发布计划 (Release Planning)
  • 排序算法学习笔记
  • 强力优化Rancher k8s中国区的使用体验
  • 容器化应用: 在阿里云搭建多节点 Openshift 集群
  • 一个完整Java Web项目背后的密码
  • 在weex里面使用chart图表
  • 好程序员大数据教程Hadoop全分布安装(非HA)
  • 教程:使用iPhone相机和openCV来完成3D重建(第一部分) ...
  • ​​​​​​​GitLab 之 GitLab-Runner 安装,配置与问题汇总
  • ​一文看懂数据清洗:缺失值、异常值和重复值的处理
  • (02)Cartographer源码无死角解析-(03) 新数据运行与地图保存、加载地图启动仅定位模式
  • (9)STL算法之逆转旋转
  • (Git) gitignore基础使用
  • (附源码)springboot人体健康检测微信小程序 毕业设计 012142
  • (附源码)springboot优课在线教学系统 毕业设计 081251
  • (回溯) LeetCode 78. 子集
  • (六)软件测试分工
  • (转)机器学习的数学基础(1)--Dirichlet分布
  • **《Linux/Unix系统编程手册》读书笔记24章**
  • .gitattributes 文件
  • .NET COER+CONSUL微服务项目在CENTOS环境下的部署实践
  • .NET delegate 委托 、 Event 事件
  • .net 程序 换成 java,NET程序员如何转行为J2EE之java基础上(9)
  • .NET是什么
  • //usr/lib/libgdal.so.20:对‘sqlite3_column_table_name’未定义的引用