当前位置: 首页 > news >正文

Redis内存使用率高,内存不足问题排查和解决

问题现象

表面现象是系统登录突然失效,排查原因发现,使用redis查询用户信息异常,从而定位到redis问题

if (PassWord.equals(dbPassWord)) {map.put("rtn", 1);map.put("value", validUser);session.setAttribute("username", user.getUsername());                                       redisWarehouseControlUtil.addObjectData(user.getUsername(),user.getUsername(),30);
}

排查原因

我的redis使用的是华为云的redis分布式缓存服务,所以在问题排查方面,我们可以结合华为云提供的丰富的分析诊断工具来辅助排查解决问题。

1、问题定位到redis上,登陆redis服务器,发现服务器内存使用率100%。

2、使用华为云的性能监控功能,查询指定时段的内存使用率信息。发现“内存利用率”指标持续接近100%。查询内存使用率超过95%的时间段内,“已逐出的键数量”和“命令最大时延”,均呈现显著上升趋势,表明存在内存不足的问题。

当内存不足时,可能导致Key频繁被逐出、响应时间上升、QPS(每秒访问次数)不稳定等问题,基本上redis服务已经瘫痪。

3、先使用实例诊断功能,大体分析一下可能得问题原因:主要还是内存占用过高问题。

4、使用华为云的缓存分析功能,执行大Key扫描,发现另一个项目的ErrorMeterData key,他是一个list队列,竟然存储数据占了2.6G,还有两个key存储数据占用了几百M,就是这三个key把服务器的内存占满了。

5、分析查找原因:去代码中查找ErrorMeterData key对应的功能,找到了问题所在,这个key存储的是解析出现异常的数据队列,但问题是,开发这个功能的同事,并没有给这个key设置过期时间也没有对这个异常数据队列的数据进行其他处理就一直存在这个队列中,随着时间的增长,以及异常数据的日复一日的不断累加,会导致存储数据太多,终于内存被占满。这是一个非常严重的bug。

问题就出在:redisMeterDataUtil.AddErrorMeterDataList(baseMessage);这一步

private void MeterDataExtractProcess()  {boolean rtn = false;while (!needClose) {// 普通表数据的解析try {BaseMessage baseMessage = redisMeterDataUtil.getMeterData();if (baseMessage != null) {if (!baseMessage.getFunctionCode().equals("") && baseMessage.getFunctionCode() != null) {switch (baseMessage.getFunctionCode()) {// 温控面板解析 --主动上传 批量case FunctionCode.UploadTcStateData:UploadTcStateDataMessage tcStateDataMessage =new UploadTcStateDataMessage(baseMessage);rtn = tcStateDataService.addUploadTcStateDataDataMessage(tcStateDataMessage);break;//  //根据表号读取,单条    温控面板解析case FunctionCode.getTcStateData:ReplyTcStateDataMessage replyTcStateDataMessage =new ReplyTcStateDataMessage(baseMessage);rtn = tcStateDataService.addTcStateDataMessage(replyTcStateDataMessage);break;default:break;}if (rtn == false) {// 解析方法存储失败,将数据添加到错误队列redisMeterDataUtil.AddErrorMeterDataList(baseMessage);}} else {// 若队列数据为空,则线程休眠1s后继续执行ThreadSleep(1000);continue;}}} catch (Exception e) {logger.error("MeterDataExtractServer--表数据redis解析出错"+e.getMessage());ThreadSleep(1000);}
public void AddErrorMeterDataList(BaseMessage baseMessage) {addData(ErrorMeterDataListSign, baseMessage);}private void addData(String type, Object data) {String key = type;redisTemplate.opsForList().leftPush(key, data);}

6、如果你没有使用华为云或者阿里云的专门的redis服务,而是自己在服务器搭建的Redis服务。那么排查问题的步骤和方法,大体可以分为几步:

  1. 查询诊断服务的CPU、内存、硬盘、网络等是否正常
  2. 查看日志分析异常问题
  3. 如果是内存占满问题,则可以在Redis-cli客户端连接实例后,执行大key扫描命令或者执行过期key扫描(过期key扫描会对键空间进行Redis的scan扫描,释放内存中已过期但是由于惰性删除机制而没有释放的内存空间),并查看key的内存占用情况。并对内存占用过大的key进行处理。

如果你想扫描Redis实例中的大key,你可以使用SCAN命令结合TYPE命令来获取每个键的类型,并根据键的类型获取其大小。

以下是一个示例的命令:

bash复制代码

redis-cli SCAN 0 MATCH * COUNT 1000 | while read key; do type=$(redis-cli TYPE $key); size=$(redis-cli -c GET $key | wc -c); echo "$key: $type, Size: $size"; done

这个命令将使用SCAN命令迭代整个数据库,并对每个键执行TYPE命令来获取键的类型。然后,对于字符串类型的键,使用GET命令获取其值,并使用wc -c命令计算其长度。最后,将键、类型和大小输出到终端。

另外,如果你想查看Redis实例的output buffer占用情况,你可以使用CONFIG GET output-buffer-limit命令来获取output buffer的配置信息。该命令将返回output buffer的配置参数,包括类型、大小和阈值。

请注意,上述命令中的redis-cli -c GET $key是用于获取字符串类型的键的大小。对于其他类型的键,你可能需要使用其他命令或方法来获取其大小。

处理措施

1、为内存占用过大的key设置过期时间,这样数据就不会一直存储在队列中

(1)比较紧急想要恢复redis,且队列中的数据不重要,则可以直接链接redis,执行命令

EXPIRE key seconds:设置键的过期时间(以秒为单位),过期后键将被自动删除。

或者

DEL key:删除指定键

(2)在代码中为key设置过期时间

/*** 设置设备缓存过期时间(分钟)* @param type 设备分类*/private void setExpireTime(String type,int cacheTime) {String key = type;redisTemplate.expire(key,cacheTime,TimeUnit.MINUTES);}/*** 设置表数据缓存失效时间list集合*/public void setMeterInfoExpire() {setExpireTime(MeterDataListSign,deviceCacheTime);}

2、业务逻辑上将这个异常数据队列的数据,重新返回处理队列,设置返回次数,如果超过三次以上,还是没有被正常队列处理掉,则将异常数据持久化,并删除redis中的该异常数据。

我的实际业务中,异常数据没有重回队列处理的必要了,所以我的业务代码中,直接不在用redis队列存储异常数据,而是直接将异常数据持久化存储到mongodb中。

if (rtn == false) {// 解析方法存储失败,将数据添加到错误队列----不再存在redis,直接持久化存储到mongodb//redisMeterDataUtil.AddErrorMeterDataList(baseMessage);tcErrorMessageHistoryUtil.addMessage(baseMessage);
}

3、设置key的过期时间后,过了一段时间内存恢复正常

总结

在使用redis的对象或者list队列等实例时,要记得给key设置过期时间,避免数据一直堆积无法释放。对于重要的异常数据队列的数据,要进行业务处理:重回队列或数据持久化。

相关文章:

  • ctfshow——文件上传
  • nginx+rsyslog+kafka+clickhouse+grafana 实现nginx 网关监控
  • LabVIEW在电机噪声与振动探测的应用
  • dctcp 和 l4s tcp prague
  • 爬虫实战-微博评论爬取
  • ubuntu系统用户登录问题
  • 【逗老师的无线电】ICOM IC-705终端模式Terminal Mode直连反射器配置-内置网关IP直连篇
  • [数理统计]中国科技技术大学缪柏其
  • typescript,eslint,prettier的引入
  • element el-table实现可进行横向拖拽滚动
  • Python异常处理TypeError: translation() got an unexpected keyword argument ‘codeset‘
  • 前端八股文(CSS篇)二
  • Android 13 - Media框架(29)- MediaCodec(四)
  • DNS测试和管理工具
  • 轻量封装WebGPU渲染系统示例<55>- 顶点数据更新
  • IE9 : DOM Exception: INVALID_CHARACTER_ERR (5)
  • 《Javascript高级程序设计 (第三版)》第五章 引用类型
  • C++回声服务器_9-epoll边缘触发模式版本服务器
  • extjs4学习之配置
  • JavaScript 无符号位移运算符 三个大于号 的使用方法
  • Javascript 原型链
  • LeetCode18.四数之和 JavaScript
  • Less 日常用法
  • Perseus-BERT——业内性能极致优化的BERT训练方案
  • Python 反序列化安全问题(二)
  • quasar-framework cnodejs社区
  • WinRAR存在严重的安全漏洞影响5亿用户
  • 入门级的git使用指北
  • 使用 @font-face
  • 思考 CSS 架构
  • 小程序开发中的那些坑
  • NLPIR智能语义技术让大数据挖掘更简单
  • ​创新驱动,边缘计算领袖:亚马逊云科技海外服务器服务再进化
  • ​低代码平台的核心价值与优势
  • $.proxy和$.extend
  • (1)bark-ml
  • (13)Hive调优——动态分区导致的小文件问题
  • (4)Elastix图像配准:3D图像
  • (C)一些题4
  • (delphi11最新学习资料) Object Pascal 学习笔记---第2章第五节(日期和时间)
  • (ros//EnvironmentVariables)ros环境变量
  • (附源码)ssm高校实验室 毕业设计 800008
  • (一)u-boot-nand.bin的下载
  • (原创)Stanford Machine Learning (by Andrew NG) --- (week 9) Anomaly DetectionRecommender Systems...
  • .NET “底层”异步编程模式——异步编程模型(Asynchronous Programming Model,APM)...
  • .NET 8 编写 LiteDB vs SQLite 数据库 CRUD 接口性能测试(准备篇)
  • .NET6 开发一个检查某些状态持续多长时间的类
  • .NET简谈互操作(五:基础知识之Dynamic平台调用)
  • .net开源工作流引擎ccflow表单数据返回值Pop分组模式和表格模式对比
  • .NET命名规范和开发约定
  • /bin/rm: 参数列表过长"的解决办法
  • /etc/apt/sources.list 和 /etc/apt/sources.list.d
  • @EnableWebMvc介绍和使用详细demo
  • @reference注解_Dubbo配置参考手册之dubbo:reference
  • @transactional 方法执行完再commit_当@Transactional遇到@CacheEvict,你的代码是不是有bug!...