当前位置：首页 > news >正文

Prometheus 告警Promesql整理

news 来源：原创 2024/9/22 21:23:11

Node 状态异常集群监控 kube_node_status_condition{condition="Ready",job="kube-state-metrics",status="true"} == 0 2m Node({{ $labels.node}})状态异常持续2分钟
应用健康检查失败应用监控 probe_success == 0 2m 应用健康检查失败
应用FullGC异常应用监控 increase(jvm_gc_collection_seconds_count{gc=~"ConcurrentMarkSweep|PS MarkSweep"}[2m]) > 2 2m 应用在2分钟内FullGC次数超过2次
app-actuator-health-10min 业务指标监控 probe_success == 0 10m 持续10分钟应用健康检查失败，请及时上线处理。
PodCPU使用率大于90% 应用监控 sum (rate (container_cpu_usage_seconds_total{image!=""}[10m])) by (pod,namespace) / sum(kube_pod_container_resource_limits_cpu_cores{job="kube-state-metrics"}) by (pod,namespace) * 100 > 90 2m Pod({{$labels.pod}})CPU使用率大于90%，(当前值:{{printf "%.2f" $value}}%)。
Pod内存使用率大于90% 应用监控 sum (container_memory_rss{image!="",pod!~"^logtail.*"}) by (pod,namespace) / sum(kube_pod_container_resource_limits_memory_bytes{job="kube-state-metrics"}) by (pod,namespace) * 100 > 90 2m Pod({{$labels.pod}})内存使用率大于90%,(当前值:{{printf "%.2f" $value}}%)。
Pod频繁重启应用监控 increase(kube_pod_container_status_restarts_total{job=~".*kube-state-metrics"}[5m]) > 0 10m Pod{{$labels.pod}}最近5分钟频繁重启
NodeCPU使用率超过80% 集群监控 100 - ((avg by (instance,job,env,appname,line)(irate(node_cpu_seconds_total{mode="idle"}[5m]))) *100) * on(instance) group_left(nodename) (node_uname_info) > 80 2m 服务器{{$labels.nodename}}CPU使用率超过80% (当前值:{{printf "%.2f" $value}}%)。
NodeCPU使用率超过90% 集群监控 100 - ((avg by (instance,job,env,appname,line)(irate(node_cpu_seconds_total{mode="idle"}[5m]))) *100) * on(instance) group_left(nodename) (node_uname_info) > 90 2m 服务器{{$labels.nodename}}内存使用率超过90% (当前值:{{printf "%.2f" $value}}%)。
Node内存使用率超过80% 集群监控 (1 - (node_memory_MemAvailable_bytes / (node_memory_MemTotal_bytes)))* 100 * on(instance) group_left(nodename) (node_uname_info) > 80 2m 服务器{{$labels.nodename}}内存使用率超过80% (当前值:{{printf "%.2f" $value}}%)。
Node内存使用率超过90% 集群监控 (1 - (node_memory_MemAvailable_bytes / (node_memory_MemTotal_bytes)))* 100 * on(instance) group_left(nodename) (node_uname_info) > 90 2m 服务器{{$labels.nodename}}内存使用率超过90% (当前值:{{printf "%.2f" $value}}%)。
Node磁盘使用率超过80% 集群监控 (node_filesystem_size_bytes{fstype=~"ext.?|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?|xfs"}) *100/(node_filesystem_avail_bytes {fstype=~"ext.?|xfs"}+(node_filesystem_size_bytes{fstype=~"ext.?|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?|xfs"})) * on(instance) group_left(nodename) (node_uname_info) > 80 2m 服务器{{$labels.nodename}}磁盘({{$labels.device}})使用率超过80% (当前值:{{printf "%.2f" $value}}%)。
Node磁盘使用率超过90% 集群监控 (node_filesystem_size_bytes{fstype=~"ext.?|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?|xfs"}) *100/(node_filesystem_avail_bytes {fstype=~"ext.?|xfs"}+(node_filesystem_size_bytes{fstype=~"ext.?|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?|xfs"})) * on(instance) group_left(nodename) (node_uname_info) > 90 1m 服务器{{$labels.nodename}}磁盘({{$labels.device}})使用率超过90% (当前值:{{printf "%.2f" $value}}%)
Nacos宕机中间件监控 count(nacos_monitor{name="configCount"})<1 1m Nacos({{$labels.pod}})服务异常已持续1分钟
RocketMQ宕机中间件监控 up{job="rocketmq-exporter"}==0 1m RocketMQ({{$labels.pod}})服务异常已持续1分钟
集群Pod批量重启集群监控 count(sum (increase (kube_pod_container_status_restarts_total{}[2m])) by (pod)>1)>3 1m 集群Pod发生批量重启事件(当前值:{{printf $value}})。
30分钟内一个Pod重启2次业务指标监控 sum (increase (kube_pod_container_status_restarts_total{namespace="tt-his"}[30m])) by (pod) > 2 1m 30分钟内一个Pod重启2次
Pod 磁盘使用超过20G 应用监控 sum by(container, pod) (container_fs_usage_bytes{id!="/"}) / 1024 / 1024 / 1024 > 20 1m Pod {{$labels.pod}} 磁盘使用大于20G，(当前值:{{printf "%.2f" $value}}G)。
客户端访问APIServer出错集群监控 (sum(rate(rest_client_requests_total{code=~"5.."}[5m])) by (instance, job, cluster_id) / sum(rate(rest_client_requests_total[5m])) by (instance, job, cluster_id)) > 0.01 15m 客户端访问 APIServer 出错率大于1%
客户端访问APIServer证书快过期集群监控 apiserver_client_certificate_expiration_seconds_count{job="apiserver"} > 0 and on(job) histogram_quantile(0.01, sum by (cluster_id, job, le) (rate(apiserver_client_certificate_expiration_seconds_bucket{job="apiserver"}[5m]))) < 86400 10m 访问APIServer的客户端证书将在24小时后过期
APIServer故障集群监控 absent(up{job="apiserver"} == 1) 2m APIServer从采集目标中消失
Scheduler故障集群监控 absent(up{job="kube-scheduler"} == 1) 15m Scheduler从采集目标中消失
ControllerManager故障集群监控 absent(up{job="kube-controller-manager"} == 1) 15m ControllerManager下线
Node不可达集群监控 kube_node_spec_taint{job=~".*kube-state-metrics",key="node.kubernetes.io/unreachable",effect="NoSchedule"} == 1 15m Node 不可达，上面的工作负载会重新调度
Node上运行太多pod 集群监控 count by(cluster_id, node) ((kube_pod_status_phase{job=~".*kube-state-metrics",phase="Running"} == 1) * on(instance,pod,namespace,cluster_id) group_left(node) topk by(instance,pod,namespace,cluster_id) (1, kube_pod_info{job=~".*kube-state-metrics"}))/max by(cluster_id, node) (kube_node_status_capacity_pods{job=~".*kube-state-metrics"} != 1) > 0.95 15m Node上运行pod量快达到上限
Node状态抖动集群监控 sum(changes(kube_node_status_condition{status="true",condition="Ready"}[15m])) by (cluster_id, node) > 2 15m Node状态在正常和异常之间抖动
Kubelet的客户端证书快过期集群监控 kubelet_certificate_manager_client_ttl_seconds < 86400 10m Kubelet客户端证书将在24小时后过期
Kubelet的服务端证书快过期集群监控 kubelet_certificate_manager_server_ttl_seconds < 86400 10m Kubelet服务端证书将在24小时后过期
PLEG耗时高集群监控 histogram_quantile(0.99, sum(rate(kubelet_pleg_relist_duration_seconds_bucket[5m])) by (cluster_id, instance, le) * on(instance, cluster_id) group_left(node) kubelet_node_name{job="kubelet"}) >= 10 5m PLEG操作耗时的99分位数超过10秒
Pod启动耗时高集群监控 histogram_quantile(0.99, sum(rate(kubelet_pod_worker_duration_seconds_bucket{job="kubelet"}[5m])) by (cluster_id, instance, le)) * on(cluster_id, instance) group_left(node) kubelet_node_name{job="kubelet"} > 60 15m Pod启动耗时的99分位数值超过60秒
Kubelet故障集群监控 absent(up{job="kubelet", metrics_path="/metrics"} == 1) 15m Kubelet从采集目标消失
节点Conntrack使用率过高集群监控 (node_nf_conntrack_entries / node_nf_conntrack_entries_limit) > 0.75 2m 节点使用大量Conntrack条目。
机器时钟漂移集群监控 ( node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0 ) or ( node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0 ) 10m 机器时间漂移超过300秒，检查NTP是否正常配置
机器时钟未同步集群监控 min_over_time(node_timex_sync_status[5m]) == 0 10m 机器时间最近未同步，检查 NTP 是否正常配置
网卡发送出错集群监控 increase(node_network_transmit_errs_total[2m]) > 10 60m 网卡发送数据出错
网卡接收出错集群监控 increase(node_network_receive_errs_total[2m]) > 10 60m 网卡接收数据出错
文件系统inode使用率高集群监控 (node_filesystem_files_free{job="node-exporter",fstype!=""}/node_filesystem_files{job="node-exporter",fstype!=""}*100<3 and node_filesystem_readonly{job="node-exporter",fstype!=""}==0) 60m 文件系统可用 inode 低于3%
ETCD故障集群监控 absent(up{job="kube-etcd"} == 1) 2m etcd组件故障
nginx故障中间件监控 nginx_up{} 2m Nginx报警: Nginx服务异常
Pod的PVC使用率超过90% 应用监控 ((kubelet_volume_stats_capacity_bytes - kubelet_volume_stats_available_bytes) / kubelet_volume_stats_capacity_bytes *100 )>90 2m Pod {{$labels.pod}} 的PVC使用率超过90%，(当前值:{{printf "%.2f" $value}})。
SSL证书过期告警集群监控 (ssl_cert_not_after-time())/3600/24 < 15 1h 证书{{ $labels.instance }}还有{{ printf "%.1f" $value }}天就过期了,请尽快更新证书
Node平均负载偏高集群监控 (sum (node_load5) by (instance) / count by (instance) (node_cpu_seconds_total{mode="idle"})) > 2 30s 服务器{{$labels.instance}}5分钟平均负载已超过CPU内核数两倍 (当前值:{{printf "%.2f" $value}}%)。
Node出现不可中断(D状态)进程集群监控 sum by(cluster, job, instance, groupname) (namedprocess_namegroup_states{state="Waiting"})>0 3m 服务器{{$labels.instance}}上出现不可中断(D状态)进程{{$labels.groupname}}
Node出现僵尸进程集群监控 sum by(cluster, job, instance, groupname) (namedprocess_namegroup_states{state="Zombie"})>0 3m 服务器{{$labels.instance}}上出现僵尸进程{{$labels.groupname}}
Node出现非正常状态进程集群监控 sum by(cluster, job, instance, groupname) (namedprocess_namegroup_states{state="Other"})>0 3m 服务器{{$labels.instance}}上出现非正常状态进程{{$labels.groupname}}
因资源不足被驱逐的Pod累积超过50个集群监控 sum(kube_pod_status_phase{phase="Evicted"}) 1m 因资源不足被驱逐的Pod累积超过50个
mysql集群主从延迟过高数据库监控 max(mysql_slave_status_seconds_behind_master{namespace="databases"}) by (pod) - max(mysql_slave_status_sql_delay{namespace="databases"}) by (pod) > 30 2m mysql实例({{$labels.pod}})延迟过高 (当前值:{{printf "%.2f" $value}}%)
mysql集群发生主从切换数据库监控 rate (mysql_slave_status_master_server_id [5m]) > 0 1m mysql集群发生主从切换,当前master节点:{{$labels.master_host}}
mysql实例连接数异常增长数据库监控 avg by(pod)(mysql_global_status_threads_connected{namespace="databases"})/avg by(pod)(mysql_global_variables_max_connections{namespace="databases"})*100 > 40 1m mysql连接数超过最大连接数的50%
mysql集群从库状态异常数据库监控 sum (mysql_slave_status_slave_io_running{namespace="databases"} + mysql_slave_status_slave_sql_running{namespace="databases"}) by (pod) < 2 2m mysql从库状态异常，请检查{{$labels.pod}}
mysql实例锁等待数量异常数据库监控 irate(mysql_global_status_innodb_row_lock_waits[1m]) >20 1m 每秒新增锁等待数量异常，当前值{{printf "%.2f" $value}})
mysql实例qps过高数据库监控 irate(mysql_global_status_queries{namespace="databases"}[5m]) > 6000 2m qps过高，当前值{{printf "%.2f" $value}})，请检查
mysql实例pod内存使用率高数据库监控 sum(container_memory_rss{namespace="databases",container="mysql"}) by (pod) / sum(kube_pod_container_resource_limits_memory_bytes{namespace="databases", container="mysql",job="kube-state-metrics"}) by (pod) > 0.75 2m 物理内存占用过高，当前值{{printf "%.2f" $value}})
mysql实例cpu使用率过高数据库监控 sum by(pod,container) (irate(container_cpu_usage_seconds_total{namespace="databases", container="mysql"}[2m])) *100 / sum by(pod,container) (kube_pod_container_resource_limits_cpu_cores{namespace="databases",container="mysql",job="kube-state-metrics"}) > 70 2m cpu使用率超过70%，当前值{{printf "%.2f" $value}})
mysql实例异常重启数据库监控 mysql_global_status_uptime{pod!=""} < 120 1m mysql节点{{$labels.pod}}异常重启
mysql实例不可达数据库监控 up{namespace="databases",pod=~".*mysql-cluster.*"} !=1 1m mysql节点不可达,节点:{{$labels.pod}}
ECS-load1负载高于cpu核数中间件监控 (sum by (instance,service) (node_load1))>(count by(instance,service) (count by(instance,cpu,service) (node_cpu_seconds_total)))* on(instance,service) group_left(nodename) (node_uname_info) 100s 服务器 {{$labels.instance}} （{{$labels.appname}}）load1负载高于cpu核数 (当前值:{{printf "%.2f" $value}}%)。'
ECS-load1负载高于cpu核数的1.5倍中间件监控 (sum by (instance,service) (node_load1))>(count by(instance,service) (count by(instance,cpu,service) (node_cpu_seconds_total))*1.5)* on(instance,service) group_left(nodename) (node_uname_info) 100s 服务器 {{$labels.instance}} （{{$labels.appname}}）load1负载高于cpu核数的1.5倍 (当前值:{{printf "%.2f" $value}}%)。'
ECS-磁盘使用率超过90% 中间件监控 (node_filesystem_size_bytes{fstype=~"ext.?|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?|xfs"}) *100/(node_filesystem_avail_bytes {fstype=~"ext.?|xfs"}+(node_filesystem_size_bytes{fstype=~"ext.?|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?|xfs"})) * on(instance,service) group_left(nodename) (node_uname_info) > 90 2m 服务器 {{$labels.instance}} （{{$labels.nodename}}）磁盘({{$labels.device}})使用率超过90% (当前值:{{printf "%.2f" $value}}%)。'
ECS-磁盘使用率超过80%: 中间件监控 (node_filesystem_size_bytes{fstype=~"ext.?|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?|xfs"}) *100/(node_filesystem_avail_bytes {fstype=~"ext.?|xfs"}+(node_filesystem_size_bytes{fstype=~"ext.?|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?|xfs"})) * on(instance,service) group_left(nodename) (node_uname_info) > 80 2m 服务器 {{$labels.instance}} （{{$labels.nodename}}）磁盘({{$labels.device}})使用率超过80% (当前值:{{printf "%.2f" $value}}%)。'
ECS- CPU使用率超过90% 中间件监控 100 - ((avg by (instance,job,env,appname,service)(irate(node_cpu_seconds_total{mode="idle"}[5m]))) *100) * on(instance,service) group_left(nodename) (node_uname_info) >90 2m 服务器 {{$labels.instance}} （{{$labels.nodename}}）CPU使用率超过90% (当前值:{{printf "%.2f" $value}}%)。'
ECS-CPU使用率超过80% 中间件监控 100 - ((avg by (instance,job,env,appname,service)(irate(node_cpu_seconds_total{mode=idle}[5m]))) *100) * on(instance,service) group_left(nodename) (node_uname_info) >80 2m 服务器 {{$labels.instance}} （{{$labels.nodename}}）CPU使用率超过80% (当前值:{{printf "%.2f" $value}}%)。'
ECS-内存使用率超过90% 中间件监控 (1 - (node_memory_MemAvailable_bytes / (node_memory_MemTotal_bytes)))* 100 * on(instance,service) group_left(nodename) (node_uname_info) > 90 2m 服务器 {{$labels.instance}} （{{$labels.nodename}}）内存使用率超过90% (当前值:{{printf "%.2f" $value}}%)'
ECS-内存使用率超过85% 中间件监控 (1 - (node_memory_MemAvailable_bytes / (node_memory_MemTotal_bytes)))* 100 * on(instance,service) group_left(nodename) (node_uname_info) > 85 2m 服务器 {{$labels.instance}} （{{$labels.nodename}}）内存使用率超过85% (当前值:{{printf "%.2f" $value}}%)
ECS-服务器宕机告警中间件监控 up{ service="ecs-out-of-cluster"} * on(instance) group_left(nodename) node_uname_info{ service="ecs-out-of-cluster"} == 0 1m 服务器HostName: {{ .nodename }} 服务器: {{ .instance }} 1分钟内没有响应，请检查是否宕机。
网络拨测告警集群监控 probe_success{probeName="k8s出口ip拨测"} == 0 5m 网络拨测：{{$labels.clusterName}}-{{$labels.probeName}}不通过
mysql集群主从延迟超过5分钟数据库监控 max(mysql_slave_status_seconds_behind_master{namespace="databases"}) by (pod) - max(mysql_slave_status_sql_delay{namespace="databases"}) by (pod) > 300 2m mysql实例({{$labels.pod}})延迟过高(当前值:{{printf "%.2f" $value}}%)
mysql集群从库权限不是只读数据库监控 mysql_global_variables_read_only{job=~".*mysql",pod !~".*mysql-0.*"} != 1 1m mysql实例({{$labels.pod}})权限不是只读
mysql实例打开文件数超过75% 数据库监控 mysql_global_status_innodb_num_open_files > (mysql_global_variables_open_files_limit) * 0.75 2m mysql实例({{$labels.pod}})打开文件数超过75%(当前值:{{printf "%.2f" $value}}%)
mysql(app)实例连接数过高数据库监控 avg by(pod)(mysql_global_status_threads_connected{namespace="databases",pod =~".*app.*"})/avg by(pod)(mysql_global_variables_max_connections{namespace="databases",pod =~".*app.*"})*100 > 50 2m mysql实例({{$labels.pod}})连接数超50%(当前值:{{printf "%.2f" $value}}%)
mysql(app)锁等待数量异常数据库监控 irate(mysql_global_status_innodb_row_lock_waits{pod =~".*app.*"}[1m]) >10 2m mysql实例({{$labels.pod}})锁等待数量异常(当前值{{printf "%.2f" $value}})
rocketmq集群broker busy压力过大中间件监控 rocketmq_brokeruntime_send_threadpoolqueue_headwait_timemills > 200 2m rocketmq集群({{$labels.namespace}}/{{$labels.cluster}})broker busy压力过大 (当前值{{printf "%.2f" $value}})
rocketmq集群TPS过高中间件监控 sum(rocketmq_producer_tps) by (cluster, namespace) >= 100 2m rocketmq集群({{$labels.namespace}}/{{$labels.cluster}})TPS过高(当前值{{printf "%.2f" $value}})
rocketmq集群消费组的消费延时时间过高中间件监控 rocketmq_group_get_latency_by_storetime/1000 > 5 and rate(rocketmq_group_get_latency_by_storetime[5m]) >0 2m rocketmq集群({{$labels.namespace}}/{{$labels.cluster}})消费组的消费延时时间过高，Topic:({{$labels.topic}})关联Group:({{$labels.group}})(当前值{{printf "%.2f" $value}})
rocketmq集群name service节点故障中间件监控 sum(kube_pod_container_status_ready{ job="kubernetes-service-endpoints",pod=~".*mq.*",pod!~".*(console|operator|exporter).*", container=~".*(name-service).*"}) by (namespace) < 2 1m rocketmq集群({{$labels.namespace}}) name service节点故障。
rocketmq集群broker节点故障中间件监控 sum(kube_pod_container_status_ready{ job="kubernetes-service-endpoints",pod=~".*mq.*",pod!~".*(console|operator|exporter).*", container=~".*(broker).*",namespace!="devops"}) by (namespace) < 2 1m rocketmq集群({{$labels.namespace}}) broker节点故障。

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

这些常用测试平台，你们公司在用的是哪些呢？

全新一代理想智能驾驶开启万人体验团招募，OTA 6.2正式全量推送

华硕天选Air：开学季的性价比之巅

聚焦工业自动化领域，港迪技术IPO上市加码技术研发投入

MySQL：简述对事务的认识

排序算法之希尔排序详细解读（附带Java代码解读）

Nginx轮询负载均衡配置指南：实现高效请求分发

无人机遥控器工作原理!!!

全面解析：动态住宅代理的关键优势

axios取消请求CancelToken的原理解析及用法示例

手撕数据结构与算法——拓扑排序

【STM32单片机_(HAL库)】3-3【中断EXTI】使用SysTick模拟多线程

数据结构（树、平衡树、红黑树）

深入理解 XSS 漏洞：原理、危害与防范

MATSUSADA松定电源直流电源维修PK350-1.1

iOS 颜色设置看我就够了

Java知识点总结（JDBC-连接步骤及CRUD）

leetcode388. Longest Absolute File Path

MySQL常见的两种存储引擎：MyISAM与InnoDB的爱恨情仇

NSTimer学习笔记

Spark学习笔记之相关记录

Spring Security中异常上抛机制及对于转型处理的一些感悟

STAR法则

------- 计算机网络基础

聊聊sentinel的DegradeSlot

你真的知道 == 和 equals 的区别吗？

前端学习笔记之观察者模式

深入浏览器事件循环的本质

想晋级高级工程师只知道表面是不够的！Git内部原理介绍

在 Chrome DevTools 中调试 JavaScript 入门

gunicorn工作原理

阿里云ACE认证学习知识点梳理

曜石科技宣布获得千万级天使轮投资，全方面布局电竞产业链 ...

智能情侣枕Pillow Talk，倾听彼此的心跳

# C++之functional库用法整理

## 1.3.Git命令

#QT（TCP网络编程-服务端）

(1) caustics\

(AngularJS)Angular 控制器之间通信初探

(cljs/run-at (JSVM. :browser) 搭建刚好可用的开发环境!)

(Python) SOAP Web Service (HTTP POST)

（补充）：java各种进制、原码、反码、补码和文本、图像、音频在计算机中的存储方式

（二）Kafka离线安装 - Zookeeper下载及安装

（二）什么是Vite——Vite 和 Webpack 区别（冷启动）

（四）Controller接口控制器详解（三）

（四）TensorRT | 基于 GPU 端的 Python 推理

(微服务实战)预付卡平台支付交易系统卡充值业务流程设计

(转)VC++中ondraw在什么时候调用的

.Net Core中Quartz的使用方法

.Net Core中的内存缓存实现——Redis及MemoryCache（2个可选）方案的实现

.NET/C# 使窗口永不获得焦点

@javax.ws.rs Webservice注解

@NoArgsConstructor和@AllArgsConstructor,@Builder

[000-01-011].第2节：持久层方案的对比

Node 状态异常	集群监控	kube_node_status_condition{condition="Ready",job="kube-state-metrics",status="true"} == 0	2m	Node({{ $labels.node}})状态异常持续2分钟
应用健康检查失败	应用监控	probe_success == 0	2m	应用健康检查失败
应用FullGC异常	应用监控	increase(jvm_gc_collection_seconds_count{gc=~"ConcurrentMarkSweep\|PS MarkSweep"}[2m]) > 2	2m	应用在2分钟内FullGC次数超过2次
app-actuator-health-10min	业务指标监控	probe_success == 0	10m	持续10分钟应用健康检查失败，请及时上线处理。
PodCPU使用率大于90%	应用监控	sum (rate (container_cpu_usage_seconds_total{image!=""}[10m])) by (pod,namespace) / sum(kube_pod_container_resource_limits_cpu_cores{job="kube-state-metrics"}) by (pod,namespace) * 100 > 90	2m	Pod({{$labels.pod}})CPU使用率大于90%，(当前值:{{printf "%.2f" $value}}%)。
Pod内存使用率大于90%	应用监控	sum (container_memory_rss{image!="",pod!~"^logtail."}) by (pod,namespace) / sum(kube_pod_container_resource_limits_memory_bytes{job="kube-state-metrics"}) by (pod,namespace) 100 > 90	2m	Pod({{$labels.pod}})内存使用率大于90%,(当前值:{{printf "%.2f" $value}}%)。
Pod频繁重启	应用监控	increase(kube_pod_container_status_restarts_total{job=~".*kube-state-metrics"}[5m]) > 0	10m	Pod{{$labels.pod}}最近5分钟频繁重启
NodeCPU使用率超过80%	集群监控	100 - ((avg by (instance,job,env,appname,line)(irate(node_cpu_seconds_total{mode="idle"}[5m]))) 100) on(instance) group_left(nodename) (node_uname_info) > 80	2m	服务器{{$labels.nodename}}CPU使用率超过80% (当前值:{{printf "%.2f" $value}}%)。
NodeCPU使用率超过90%	集群监控	100 - ((avg by (instance,job,env,appname,line)(irate(node_cpu_seconds_total{mode="idle"}[5m]))) 100) on(instance) group_left(nodename) (node_uname_info) > 90	2m	服务器{{$labels.nodename}}内存使用率超过90% (当前值:{{printf "%.2f" $value}}%)。
Node内存使用率超过80%	集群监控	(1 - (node_memory_MemAvailable_bytes / (node_memory_MemTotal_bytes)))* 100 * on(instance) group_left(nodename) (node_uname_info) > 80	2m	服务器{{$labels.nodename}}内存使用率超过80% (当前值:{{printf "%.2f" $value}}%)。
Node内存使用率超过90%	集群监控	(1 - (node_memory_MemAvailable_bytes / (node_memory_MemTotal_bytes)))* 100 * on(instance) group_left(nodename) (node_uname_info) > 90	2m	服务器{{$labels.nodename}}内存使用率超过90% (当前值:{{printf "%.2f" $value}}%)。
Node磁盘使用率超过80%	集群监控	(node_filesystem_size_bytes{fstype=~"ext.?\|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?\|xfs"}) 100/(node_filesystem_avail_bytes {fstype=~"ext.?\|xfs"}+(node_filesystem_size_bytes{fstype=~"ext.?\|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?\|xfs"})) on(instance) group_left(nodename) (node_uname_info) > 80	2m	服务器{{$labels.nodename}}磁盘({{$labels.device}})使用率超过80% (当前值:{{printf "%.2f" $value}}%)。
Node磁盘使用率超过90%	集群监控	(node_filesystem_size_bytes{fstype=~"ext.?\|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?\|xfs"}) 100/(node_filesystem_avail_bytes {fstype=~"ext.?\|xfs"}+(node_filesystem_size_bytes{fstype=~"ext.?\|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?\|xfs"})) on(instance) group_left(nodename) (node_uname_info) > 90	1m	服务器{{$labels.nodename}}磁盘({{$labels.device}})使用率超过90% (当前值:{{printf "%.2f" $value}}%)
Nacos宕机	中间件监控	count(nacos_monitor{name="configCount"})<1	1m	Nacos({{$labels.pod}})服务异常已持续1分钟
RocketMQ宕机	中间件监控	up{job="rocketmq-exporter"}==0	1m	RocketMQ({{$labels.pod}})服务异常已持续1分钟
集群Pod批量重启	集群监控	count(sum (increase (kube_pod_container_status_restarts_total{}[2m])) by (pod)>1)>3	1m	集群Pod发生批量重启事件(当前值:{{printf $value}})。
30分钟内一个Pod重启2次	业务指标监控	sum (increase (kube_pod_container_status_restarts_total{namespace="tt-his"}[30m])) by (pod) > 2	1m	30分钟内一个Pod重启2次
Pod 磁盘使用超过20G	应用监控	sum by(container, pod) (container_fs_usage_bytes{id!="/"}) / 1024 / 1024 / 1024 > 20	1m	Pod {{$labels.pod}} 磁盘使用大于20G，(当前值:{{printf "%.2f" $value}}G)。
客户端访问APIServer出错	集群监控	(sum(rate(rest_client_requests_total{code=~"5.."}[5m])) by (instance, job, cluster_id) / sum(rate(rest_client_requests_total[5m])) by (instance, job, cluster_id)) > 0.01	15m	客户端访问 APIServer 出错率大于1%
客户端访问APIServer证书快过期	集群监控	apiserver_client_certificate_expiration_seconds_count{job="apiserver"} > 0 and on(job) histogram_quantile(0.01, sum by (cluster_id, job, le) (rate(apiserver_client_certificate_expiration_seconds_bucket{job="apiserver"}[5m]))) < 86400	10m	访问APIServer的客户端证书将在24小时后过期
APIServer故障	集群监控	absent(up{job="apiserver"} == 1)	2m	APIServer从采集目标中消失
Scheduler故障	集群监控	absent(up{job="kube-scheduler"} == 1)	15m	Scheduler从采集目标中消失
ControllerManager故障	集群监控	absent(up{job="kube-controller-manager"} == 1)	15m	ControllerManager下线
Node不可达	集群监控	kube_node_spec_taint{job=~".*kube-state-metrics",key="node.kubernetes.io/unreachable",effect="NoSchedule"} == 1	15m	Node 不可达，上面的工作负载会重新调度
Node上运行太多pod	集群监控	count by(cluster_id, node) ((kube_pod_status_phase{job=~".kube-state-metrics",phase="Running"} == 1) on(instance,pod,namespace,cluster_id) group_left(node) topk by(instance,pod,namespace,cluster_id) (1, kube_pod_info{job=~".kube-state-metrics"}))/max by(cluster_id, node) (kube_node_status_capacity_pods{job=~".kube-state-metrics"} != 1) > 0.95	15m	Node上运行pod量快达到上限
Node状态抖动	集群监控	sum(changes(kube_node_status_condition{status="true",condition="Ready"}[15m])) by (cluster_id, node) > 2	15m	Node状态在正常和异常之间抖动
Kubelet的客户端证书快过期	集群监控	kubelet_certificate_manager_client_ttl_seconds < 86400	10m	Kubelet客户端证书将在24小时后过期
Kubelet的服务端证书快过期	集群监控	kubelet_certificate_manager_server_ttl_seconds < 86400	10m	Kubelet服务端证书将在24小时后过期
PLEG耗时高	集群监控	histogram_quantile(0.99, sum(rate(kubelet_pleg_relist_duration_seconds_bucket[5m])) by (cluster_id, instance, le) * on(instance, cluster_id) group_left(node) kubelet_node_name{job="kubelet"}) >= 10	5m	PLEG操作耗时的99分位数超过10秒
Pod启动耗时高	集群监控	histogram_quantile(0.99, sum(rate(kubelet_pod_worker_duration_seconds_bucket{job="kubelet"}[5m])) by (cluster_id, instance, le)) * on(cluster_id, instance) group_left(node) kubelet_node_name{job="kubelet"} > 60	15m	Pod启动耗时的99分位数值超过60秒
Kubelet故障	集群监控	absent(up{job="kubelet", metrics_path="/metrics"} == 1)	15m	Kubelet从采集目标消失
节点Conntrack使用率过高	集群监控	(node_nf_conntrack_entries / node_nf_conntrack_entries_limit) > 0.75	2m	节点使用大量Conntrack条目。
机器时钟漂移	集群监控	( node_timex_offset_seconds > 0.05 and deriv(node_timex_offset_seconds[5m]) >= 0 ) or ( node_timex_offset_seconds < -0.05 and deriv(node_timex_offset_seconds[5m]) <= 0 )	10m	机器时间漂移超过300秒，检查NTP是否正常配置
机器时钟未同步	集群监控	min_over_time(node_timex_sync_status[5m]) == 0	10m	机器时间最近未同步，检查 NTP 是否正常配置
网卡发送出错	集群监控	increase(node_network_transmit_errs_total[2m]) > 10	60m	网卡发送数据出错
网卡接收出错	集群监控	increase(node_network_receive_errs_total[2m]) > 10	60m	网卡接收数据出错
文件系统inode使用率高	集群监控	(node_filesystem_files_free{job="node-exporter",fstype!=""}/node_filesystem_files{job="node-exporter",fstype!=""}*100<3 and node_filesystem_readonly{job="node-exporter",fstype!=""}==0)	60m	文件系统可用 inode 低于3%
ETCD故障	集群监控	absent(up{job="kube-etcd"} == 1)	2m	etcd组件故障
nginx故障	中间件监控	nginx_up{}	2m	Nginx报警: Nginx服务异常
Pod的PVC使用率超过90%	应用监控	((kubelet_volume_stats_capacity_bytes - kubelet_volume_stats_available_bytes) / kubelet_volume_stats_capacity_bytes *100 )>90	2m	Pod {{$labels.pod}} 的PVC使用率超过90%，(当前值:{{printf "%.2f" $value}})。
SSL证书过期告警	集群监控	(ssl_cert_not_after-time())/3600/24 < 15	1h	证书{{ $labels.instance }}还有{{ printf "%.1f" $value }}天就过期了,请尽快更新证书
Node平均负载偏高	集群监控	(sum (node_load5) by (instance) / count by (instance) (node_cpu_seconds_total{mode="idle"})) > 2	30s	服务器{{$labels.instance}}5分钟平均负载已超过CPU内核数两倍 (当前值:{{printf "%.2f" $value}}%)。
Node出现不可中断(D状态)进程	集群监控	sum by(cluster, job, instance, groupname) (namedprocess_namegroup_states{state="Waiting"})>0	3m	服务器{{$labels.instance}}上出现不可中断(D状态)进程{{$labels.groupname}}
Node出现僵尸进程	集群监控	sum by(cluster, job, instance, groupname) (namedprocess_namegroup_states{state="Zombie"})>0	3m	服务器{{$labels.instance}}上出现僵尸进程{{$labels.groupname}}
Node出现非正常状态进程	集群监控	sum by(cluster, job, instance, groupname) (namedprocess_namegroup_states{state="Other"})>0	3m	服务器{{$labels.instance}}上出现非正常状态进程{{$labels.groupname}}
因资源不足被驱逐的Pod累积超过50个	集群监控	sum(kube_pod_status_phase{phase="Evicted"})	1m	因资源不足被驱逐的Pod累积超过50个
mysql集群主从延迟过高	数据库监控	max(mysql_slave_status_seconds_behind_master{namespace="databases"}) by (pod) - max(mysql_slave_status_sql_delay{namespace="databases"}) by (pod) > 30	2m	mysql实例({{$labels.pod}})延迟过高 (当前值:{{printf "%.2f" $value}}%)
mysql集群发生主从切换	数据库监控	rate (mysql_slave_status_master_server_id [5m]) > 0	1m	mysql集群发生主从切换,当前master节点:{{$labels.master_host}}
mysql实例连接数异常增长	数据库监控	avg by(pod)(mysql_global_status_threads_connected{namespace="databases"})/avg by(pod)(mysql_global_variables_max_connections{namespace="databases"})*100 > 40	1m	mysql连接数超过最大连接数的50%
mysql集群从库状态异常	数据库监控	sum (mysql_slave_status_slave_io_running{namespace="databases"} + mysql_slave_status_slave_sql_running{namespace="databases"}) by (pod) < 2	2m	mysql从库状态异常，请检查{{$labels.pod}}
mysql实例锁等待数量异常	数据库监控	irate(mysql_global_status_innodb_row_lock_waits[1m]) >20	1m	每秒新增锁等待数量异常，当前值{{printf "%.2f" $value}})
mysql实例qps过高	数据库监控	irate(mysql_global_status_queries{namespace="databases"}[5m]) > 6000	2m	qps过高，当前值{{printf "%.2f" $value}})，请检查
mysql实例pod内存使用率高	数据库监控	sum(container_memory_rss{namespace="databases",container="mysql"}) by (pod) / sum(kube_pod_container_resource_limits_memory_bytes{namespace="databases", container="mysql",job="kube-state-metrics"}) by (pod) > 0.75	2m	物理内存占用过高，当前值{{printf "%.2f" $value}})
mysql实例cpu使用率过高	数据库监控	sum by(pod,container) (irate(container_cpu_usage_seconds_total{namespace="databases", container="mysql"}[2m])) *100 / sum by(pod,container) (kube_pod_container_resource_limits_cpu_cores{namespace="databases",container="mysql",job="kube-state-metrics"}) > 70	2m	cpu使用率超过70%，当前值{{printf "%.2f" $value}})
mysql实例异常重启	数据库监控	mysql_global_status_uptime{pod!=""} < 120	1m	mysql节点{{$labels.pod}}异常重启
mysql实例不可达	数据库监控	up{namespace="databases",pod=~".mysql-cluster."} !=1	1m	mysql节点不可达,节点:{{$labels.pod}}
ECS-load1负载高于cpu核数	中间件监控	(sum by (instance,service) (node_load1))>(count by(instance,service) (count by(instance,cpu,service) (node_cpu_seconds_total)))* on(instance,service) group_left(nodename) (node_uname_info)	100s	服务器 {{$labels.instance}} （{{$labels.appname}}）load1负载高于cpu核数 (当前值:{{printf "%.2f" $value}}%)。'
ECS-load1负载高于cpu核数的1.5倍	中间件监控	(sum by (instance,service) (node_load1))>(count by(instance,service) (count by(instance,cpu,service) (node_cpu_seconds_total))1.5) on(instance,service) group_left(nodename) (node_uname_info)	100s	服务器 {{$labels.instance}} （{{$labels.appname}}）load1负载高于cpu核数的1.5倍 (当前值:{{printf "%.2f" $value}}%)。'
ECS-磁盘使用率超过90%	中间件监控	(node_filesystem_size_bytes{fstype=~"ext.?\|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?\|xfs"}) 100/(node_filesystem_avail_bytes {fstype=~"ext.?\|xfs"}+(node_filesystem_size_bytes{fstype=~"ext.?\|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?\|xfs"})) on(instance,service) group_left(nodename) (node_uname_info) > 90	2m	服务器 {{$labels.instance}} （{{$labels.nodename}}）磁盘({{$labels.device}})使用率超过90% (当前值:{{printf "%.2f" $value}}%)。'
ECS-磁盘使用率超过80%:	中间件监控	(node_filesystem_size_bytes{fstype=~"ext.?\|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?\|xfs"}) 100/(node_filesystem_avail_bytes {fstype=~"ext.?\|xfs"}+(node_filesystem_size_bytes{fstype=~"ext.?\|xfs"}-node_filesystem_free_bytes{fstype=~"ext.?\|xfs"})) on(instance,service) group_left(nodename) (node_uname_info) > 80	2m	服务器 {{$labels.instance}} （{{$labels.nodename}}）磁盘({{$labels.device}})使用率超过80% (当前值:{{printf "%.2f" $value}}%)。'
ECS- CPU使用率超过90%	中间件监控	100 - ((avg by (instance,job,env,appname,service)(irate(node_cpu_seconds_total{mode="idle"}[5m]))) 100) on(instance,service) group_left(nodename) (node_uname_info) >90	2m	服务器 {{$labels.instance}} （{{$labels.nodename}}）CPU使用率超过90% (当前值:{{printf "%.2f" $value}}%)。'
ECS-CPU使用率超过80%	中间件监控	100 - ((avg by (instance,job,env,appname,service)(irate(node_cpu_seconds_total{mode=idle}[5m]))) 100) on(instance,service) group_left(nodename) (node_uname_info) >80	2m	服务器 {{$labels.instance}} （{{$labels.nodename}}）CPU使用率超过80% (当前值:{{printf "%.2f" $value}}%)。'
ECS-内存使用率超过90%	中间件监控	(1 - (node_memory_MemAvailable_bytes / (node_memory_MemTotal_bytes)))* 100 * on(instance,service) group_left(nodename) (node_uname_info) > 90	2m	服务器 {{$labels.instance}} （{{$labels.nodename}}）内存使用率超过90% (当前值:{{printf "%.2f" $value}}%)'
ECS-内存使用率超过85%	中间件监控	(1 - (node_memory_MemAvailable_bytes / (node_memory_MemTotal_bytes)))* 100 * on(instance,service) group_left(nodename) (node_uname_info) > 85	2m	服务器 {{$labels.instance}} （{{$labels.nodename}}）内存使用率超过85% (当前值:{{printf "%.2f" $value}}%)
ECS-服务器宕机告警	中间件监控	up{ service="ecs-out-of-cluster"} * on(instance) group_left(nodename) node_uname_info{ service="ecs-out-of-cluster"} == 0	1m	服务器HostName: {{ .nodename }} 服务器: {{ .instance }} 1分钟内没有响应，请检查是否宕机。
网络拨测告警	集群监控	probe_success{probeName="k8s出口ip拨测"} == 0	5m	网络拨测：{{$labels.clusterName}}-{{$labels.probeName}}不通过
mysql集群主从延迟超过5分钟	数据库监控	max(mysql_slave_status_seconds_behind_master{namespace="databases"}) by (pod) - max(mysql_slave_status_sql_delay{namespace="databases"}) by (pod) > 300	2m	mysql实例({{$labels.pod}})延迟过高(当前值:{{printf "%.2f" $value}}%)
mysql集群从库权限不是只读	数据库监控	mysql_global_variables_read_only{job=~".mysql",pod !~".mysql-0.*"} != 1	1m	mysql实例({{$labels.pod}})权限不是只读
mysql实例打开文件数超过75%	数据库监控	mysql_global_status_innodb_num_open_files > (mysql_global_variables_open_files_limit) * 0.75	2m	mysql实例({{$labels.pod}})打开文件数超过75%(当前值:{{printf "%.2f" $value}}%)
mysql(app)实例连接数过高	数据库监控	avg by(pod)(mysql_global_status_threads_connected{namespace="databases",pod =~".app."})/avg by(pod)(mysql_global_variables_max_connections{namespace="databases",pod =~".app."})*100 > 50	2m	mysql实例({{$labels.pod}})连接数超50%(当前值:{{printf "%.2f" $value}}%)
mysql(app)锁等待数量异常	数据库监控	irate(mysql_global_status_innodb_row_lock_waits{pod =~".app."}[1m]) >10	2m	mysql实例({{$labels.pod}})锁等待数量异常(当前值{{printf "%.2f" $value}})
rocketmq集群broker busy压力过大	中间件监控	rocketmq_brokeruntime_send_threadpoolqueue_headwait_timemills > 200	2m	rocketmq集群({{$labels.namespace}}/{{$labels.cluster}})broker busy压力过大 (当前值{{printf "%.2f" $value}})
rocketmq集群TPS过高	中间件监控	sum(rocketmq_producer_tps) by (cluster, namespace) >= 100	2m	rocketmq集群({{$labels.namespace}}/{{$labels.cluster}})TPS过高(当前值{{printf "%.2f" $value}})
rocketmq集群消费组的消费延时时间过高	中间件监控	rocketmq_group_get_latency_by_storetime/1000 > 5 and rate(rocketmq_group_get_latency_by_storetime[5m]) >0	2m	rocketmq集群({{$labels.namespace}}/{{$labels.cluster}})消费组的消费延时时间过高，Topic:({{$labels.topic}})关联Group:({{$labels.group}})(当前值{{printf "%.2f" $value}})
rocketmq集群name service节点故障	中间件监控	sum(kube_pod_container_status_ready{ job="kubernetes-service-endpoints",pod=~".mq.",pod!~".(console\|operator\|exporter).", container=~".(name-service)."}) by (namespace) < 2	1m	rocketmq集群({{$labels.namespace}}) name service节点故障。
rocketmq集群broker节点故障	中间件监控	sum(kube_pod_container_status_ready{ job="kubernetes-service-endpoints",pod=~".mq.",pod!~".(console\|operator\|exporter).", container=~".(broker).",namespace!="devops"}) by (namespace) < 2	1m	rocketmq集群({{$labels.namespace}}) broker节点故障。

相关文章：