当前位置: 首页 > news >正文

【bug排查解决】现象级延迟8-10s

业务背景

最近公司在做物联网相关的项目,调试过程中发现好玩的bug。
首先一个数据采集场景,plc采集数据全链路:
kepServer(kepserver IOT gateway) -> emqx (查看日志)-> iot服务 -> 业务处理发送Kafka -> flink消费 -> websocket推送告警...
【整个链路还是比较长的】

整个过程是这样的,

  • kepServer。kepServer上配置设备需要采集的plc数据点位,kepServer自带的 IOT gateway,可以针对任意配置点位推送至EMQX服务器topic以及点位推送速率,为了调试配置了几个点位有虚拟点位和真实点位
  • EMQX。启动EMQX:MQTT服务器(业内比较常用的MQTT服务器)
  • IOT服务。 kepServer IOT配置点位数据发生变化后,将数据推送给EMQX,IOT服务监听对应topic解析组装数据直接将消息推送至Kafka
  • kafka。Kafka为所有类型数据的入口,所有类型数据统一推送至Kafka,如ModBus、MQTT、HttpApi…
  • Flink服务。Flink服务实时消费Kafka数据,根据IOT服务中配置与kepServer上对应的点位以及针对不同点位配置的告警模板,根据阈值或者状态等其他规则实时处理数据。
  • WebSocket。目前Flink集成WebSocket,根据阈值实时推送给前端,实时展示数据,如传感器温湿度、设备状态…

现象

调试真实点位

率先发现改变设备运行状态plc点位值,设备运行状态或者告警产生比较慢【延迟比较多】

分析

查看现有日志,初步分析发现消息生产到推送到Kafka有10s延迟

初步分析

  • kepserver 消息产生有时间
  • emqx可以配置日志级别为 debug,查看接受到消息的时间 延迟没问题
  • 发送Kafka之前的逻辑比较简单,不会有延迟

最终定位问题IOT接受消息有延迟,IOT框架内Listener监听消息有延迟 orz(初步定位,实际上是错的

后续,又将IOT监听MQTT消息初打日志,发送Kafka消息耗时时间打印。

对比多个关键节点时间,发现两个延迟点

  1. kepServer数据发生变化的时间和EMQX接收到kepServer推送的消息的时间对比:发现有个5-8s的延迟【kepServer->EMQX
  2. Kafka发送消息到成功回调:有个固定2s左右的延迟【Kafka

发现问题比解决问题更难,多打日志,好定位问题,养成习惯

最终解决

全链路排查

  1. kepServer

    • kepServer IOT gateway -> rate 速率设置,由10000 -> 1000

    • 这个参数改为1000之后呢(kepServer延迟得到解决),原本8-10s的延迟,变为了3s延迟左右

  2. kafka

    • 通过代码中各个关键节点打的日志,发现Kafka发消息到成功回调基本稳定在2s延迟左右,偶尔会有基本无延迟的情况(这种情况有点意思)

    • 各种查资料发现Kafka有如下几个与消息缓存区相关的参数

          kafka:...producer:batch-size: 16384 # kafka本地线程会去缓冲区中⼀次拉16k的数据,发送到brokerbuffer-memory: 33554432 # 消息缓冲区默认32m...properties:linger:ms: 10 # 默认 10ms
      

      如果线程拉不到16k的数据,间隔10ms也会将已拉到的数据发到broker

    原本这个时间参数刚好设置的就是2000ms,与上述刚好固定两秒延迟相符,偶尔有无延迟现象说明该消息刚发送就到了2s的频次直接就发生了无延迟

    • 该时间参数不设置或者设置小一些对延迟有明显的提升,但这样就会频繁发送消息增大网络开销,自行根据业务取舍
    • 整个默认10ms

所有都改完之后,基本延迟在1s左右,由于链路本身就比较长,这个时间还是可以接受的。yes

相关文章:

  • Swift 中 User Defaults 的读取和写入
  • docker搭建xxl-job
  • 配置typroa上传图片到gitee
  • Python作业答疑_6.22~6.25
  • debianubuntu的nvidia驱动升级
  • unity 2d 入门 飞翔小鸟 下坠功能且碰到地面要停止 刚体 胶囊碰撞器 (四)
  • APM Server监控
  • cs制作木马和钓鱼邮件
  • C实现的双向链表队列
  • 【Docker】Swarm的ingress网络
  • (分类)KNN算法- 参数调优
  • TimeGPT:时间序列预测模型实例
  • 「Swift」取消UITableView起始位置在状态栏下方开始
  • 10、外观模式(Facade Pattern,不常用)
  • Docker容器中的OpenCV:轻松构建可移植的计算机视觉环境
  • -------------------- 第二讲-------- 第一节------在此给出链表的基本操作
  • angular2 简述
  • Brief introduction of how to 'Call, Apply and Bind'
  • create-react-app项目添加less配置
  • MobX
  • node入门
  • Spring Security中异常上抛机制及对于转型处理的一些感悟
  • Spring思维导图,让Spring不再难懂(mvc篇)
  • SpriteKit 技巧之添加背景图片
  • 基于游标的分页接口实现
  • 前端每日实战:70# 视频演示如何用纯 CSS 创作一只徘徊的果冻怪兽
  • 前端性能优化--懒加载和预加载
  • 如何借助 NoSQL 提高 JPA 应用性能
  • shell使用lftp连接ftp和sftp,并可以指定私钥
  • 国内开源镜像站点
  • 支付宝花15年解决的这个问题,顶得上做出十个支付宝 ...
  • ![CDATA[ ]] 是什么东东
  • # Swust 12th acm 邀请赛# [ E ] 01 String [题解]
  • #《AI中文版》V3 第 1 章 概述
  • $LayoutParams cannot be cast to android.widget.RelativeLayout$LayoutParams
  • (1)(1.13) SiK无线电高级配置(六)
  • (11)iptables-仅开放指定ip访问指定端口
  • (23)mysql中mysqldump备份数据库
  • (35)远程识别(又称无人机识别)(二)
  • (Java数据结构)ArrayList
  • (二)linux使用docker容器运行mysql
  • (经验分享)作为一名普通本科计算机专业学生,我大学四年到底走了多少弯路
  • (论文阅读40-45)图像描述1
  • (每日一问)基础知识:堆与栈的区别
  • (十七)Flask之大型项目目录结构示例【二扣蓝图】
  • (贪心) LeetCode 45. 跳跃游戏 II
  • (续)使用Django搭建一个完整的项目(Centos7+Nginx)
  • (原)记一次CentOS7 磁盘空间大小异常的解决过程
  • (转) SpringBoot:使用spring-boot-devtools进行热部署以及不生效的问题解决
  • (转)视频码率,帧率和分辨率的联系与区别
  • .FileZilla的使用和主动模式被动模式介绍
  • .NET 6 Mysql Canal (CDC 增量同步,捕获变更数据) 案例版
  • .NET C# 配置 Options
  • .NET(C#、VB)APP开发——Smobiler平台控件介绍:Bluetooth组件
  • .NET/C# 在代码中测量代码执行耗时的建议(比较系统性能计数器和系统时间)...