当前位置: 首页 > news >正文

【jvm】记一次hive堆heap内存溢出的排查

先看下java的内存模型

监控jvm工具:visualVM 摘录一下内容:

由c++开发的jvm,它巧妙地设计了java的设计理念——即万物皆对象。并设计了这些对象应该如何存储,如何调用,并通过不断迭代设计让对象的存储和回收,执行更加合理,下图是jvm的发展历程。

也许开发者未必精通jvm,但对jvm的深入了解可以对开发,排错,调优有非常大的帮助。这里给出最基本的 jvm 入门知识,也是你监控 jvm并期待通过分析jvm来排错调优所必要的基础知识:
在这里插入图片描述

  • 堆(Heap):
    堆是用于存储对象实例的内存区域。在堆中分配的对象包括通过 new 关键字创建的对象以及数组。
    所有线程共享堆,但每个对象都有一个标识它的引用。
  • 栈(Stack):
    栈用于存储方法的局部变量、操作数栈、方法返回地址等。每个线程都有自己的栈。
    每个方法在执行时都会创建一个栈帧,栈帧包含了该方法的局部变量表、操作数栈、动态链接、方法返回地址等信息。
  • 程序计数器(Program Counter):
    程序计数器是每个线程私有的,用于存储当前线程执行的字节码指令的地址或索引。
    在多线程环境下,程序计数器用于记录每个线程执行的位置,确保线程切换后能够恢复到正确的执行位置。
  • 本地方法栈(Native Method Stack):
    本地方法栈类似于栈,但用于执行本地方法(非 Java 语言编写的方法)。
    本地方法栈的实现和栈类似,但用于执行本地代码。
  • 元空间(Metaspace):
    元空间是 JDK 8+ 版本中引入的(替代原来的方法区),使用本机内存存储类的元信息,包括类的结构信息、静态变量
    、方法信息等。

查看hive日志

日志:hive-server2.out,注意不是:hiveserver2.log

2024-09-10 20:21:35,765 HiveServer2-Background-Pool: Thread-13637 ERROR Unable to create Appender of type HushableMutableRandomAccess
java.lang.OutOfMemoryError: Java heap space
Dumping heap to /var/de_log/hive/java_pid36821.hprof ...
Heap dump file created [18346979563 bytes in 27.401 secs]
Terminating due to java.lang.OutOfMemoryError: Java heap space

可以看到发生了OOM的问题OutOfMemoryError,堆heap内存溢出了。

获取hive内存溢出时候的内存快照hprof

hiveserver2日志文件夹内执行:grep OutOfMemory ./hiveserver2-gc.log*
得到如下内容:

./hiveserver2-gc.log.0:CommandLine flags: -XX:+ExitOnOutOfMemoryError -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/xxx/hive/

参数具体意义参考:-XX:+HeapDumpOnOutOfMemoryError

根据/xxx/hive/和发生hiveserver2 terminate的时间,找到jvm导出的hprof文件,hprof文件大约有17GB。此文件就是发生OutOfMemoryError时刻的内存快照,很大也压缩不了。

ls -lh
-rw-------  1 hive hadoop  17G Sep  9 23:06 java_pid24619.hprof

使用工具分析hprof文件

工具一VisualVM:

此工具是jdk自带的,一般在JAVA_HOME/bin/jvisualvm.exe在win下直接运行就可以了。

载入hprof文件在在这里插入图片描述就会的都如下信息:

基本信息:生成的日期: Tue Sep 10 20:30:14 CST 2024文件: D:\java_pid123345.hprof\java_pid12345.hprof文件大小: 17,497 MB字节总数: 18,231,897,382类总数: 23,546实例总数: 11,253,335类加载器: 1,354垃圾回收根节点: 11,647等待结束的暂挂对象数: 0在出现 OutOfMemoryError 异常错误时进行了堆转储导致 OutOfMemoryError 异常错误的线程: HiveServer2-Background-Pool: Thread-12410

点击 HiveServer2-Background-Pool: Thread-12410超链接就是展示实际进程的调用栈:

 
"HiveServer2-Background-Pool: Thread-12410" prio=5 tid=12410 RUNNABLEat java.lang.OutOfMemoryError.<init>(OutOfMemoryError.java:48)at org.apache.thrift.protocol.TBinaryProtocol.readStringBody(TBinaryProtocol.java:379)at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol.java:230)at org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:77)at org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.recv_get_database(ThriftHiveMetastore.java:770)Local Variable: org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$get_database_result#166at org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.get_database(ThriftHiveMetastore.java:757)at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.getDatabase(HiveMetaStoreClient.java:1523)

HiveMetaStoreClient.getDatabase可以发现是hms读取database信息造成的。

工具二mat:

内存溢出怎么排查?分析思路大概都是这样的吧

官网地址:
mat工具地址
注意下载时候选择版本,mat和jdk有一定搭配关系。

(1)可以在overview 在这里插入图片描述下,点击Leak Suspects即可执行可疑分析。

Problem Suspect项目下是分析的可疑项,

The thread org.apache.hive.service.server.ThreadWithGarbageCleanup @ 0x2d79ff8d8 HiveServer2-Background-Pool: Thread-13828 keeps local variables with total size 1,936,085,120 (10.77%) bytes.
The memory is accumulated in one instance of "byte[]" loaded by "<system class loader>".
The stacktrace of this Thread is available. See stacktrace.Keywords
byte[]Details »

可以看到是org.apache.hive.service.server.ThreadWithGarbageCleanup @ 0x2d79ff8d8 这个进程出现问题了。

(2)查看Histogram在这里插入图片描述列表项目:

Class Name| Objects |   Shallow Heap |     Retained Heap
---------------------------------------------------------
byte[]    | 130,780 | 17,442,187,032 | >= 17,442,187,032
---------------------------------------------------------

可以根据Retained Heap或者Shallow Heap看到排名第一的是byte[]大约有,17,442,187,032/1024/1024/1024=16.24GB。 17442187032/18346979563=95%,byte[]占到线程内存的比例很高。

(3)查看thread overview 在这里插入图片描述根据thread名称找到以0x2d79ff8d8结尾的thread。
先看最上边的内容,这和java日志调用栈展示的顺序是一致的,最后执行的在最上展示,可以看到java.io.BufferedInputStream.read读取进本地1,935,998,992/1024/1024/1024=1.8GB内容。

Object / Stack Frame                                                                                                                                                                                                                                                                                          |Name|  Shallow Heap | Retained Heap |Context Class Loader|Is Daemon
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
at java.io.BufferedInputStream.read([BII)I (BufferedInputStream.java:336)                                                                                                                                                                                                                                     |    |               |               |                    |
|- <local> java.io.BufferedInputStream @ 0x2c3ebe9b0 Busy Monitor                                                                                                                                                                                                                                             |    |            40 |            40 |                    |
|- <local> byte[1935998976] @ 0x697000000  ...................................................................................................................................................................................................................................................................|    | 1,935,998,992 | 1,935,998,992 |                    |
'- Total: 2 entries                                                                                                                                                                                                                                                                                           |    |               |               |                    |
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

再看更远的内容,可见ThriftHiveMetastore$Client.recv_get_database()可以知道读取此内容是由于hive metastore尝试获取database信息引发的。如果是自己写的程序,再往下找一般就能找到是自己的那个类的哪行代码触发的了。

Object / Stack Frame                                                                                                                                                   |Name                                     | Shallow Heap | Retained Heap |Context Class Loader                                       |Is Daemon
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
org.apache.hive.service.server.ThreadWithGarbageCleanup @ 0x2d79ff8d8                                                                                                  |HiveServer2-Background-Pool: Thread-13828|          128 | 1,936,085,120 |org.apache.hadoop.hive.ql.exec.UDFClassLoader @ 0x2d397cbc0|false
|- at java.io.BufferedInputStream.read([BII)I (BufferedInputStream.java:336)                                                                                           |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TIOStreamTransport.read([BII)I (TIOStreamTransport.java:127)                                                                         |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TTransport.readAll([BII)I (TTransport.java:86)                                                                                       |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TSaslTransport.readFrame()V (TSaslTransport.java:458)                                                                                |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TSaslTransport.read([BII)I (TSaslTransport.java:433)                                                                                 |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TSaslClientTransport.read([BII)I (TSaslClientTransport.java:37)                                                                      |                                         |              |               |                                                           |
|- at org.apache.thrift.transport.TTransport.readAll([BII)I (TTransport.java:86)                                                                                       |                                         |              |               |                                                           |
|- at org.apache.hadoop.hive.thrift.TFilterTransport.readAll([BII)I (TFilterTransport.java:62)                                                                         |                                         |              |               |                                                           |
|- at org.apache.thrift.protocol.TBinaryProtocol.readAll([BII)I (TBinaryProtocol.java:429)                                                                             |                                         |              |               |                                                           |
|- at org.apache.thrift.protocol.TBinaryProtocol.readI32()I (TBinaryProtocol.java:318)                                                                                 |                                         |              |               |                                                           |
|- at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin()Lorg/apache/thrift/protocol/TMessage; (TBinaryProtocol.java:219)                                    |                                         |              |               |                                                           |
|- at org.apache.thrift.TServiceClient.receiveBase(Lorg/apache/thrift/TBase;Ljava/lang/String;)V (TServiceClient.java:77)                                              |                                         |              |               |                                                           |
|- at org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.recv_get_database()Lorg/apache/hadoop/hive/metastore/api/Database; (ThriftHiveMetastore.java:770)|                                         |              |               |                                                           |
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

问题根因

程序发生oom的问题找到了,自己hive插件程序(随hiveserver2的sql任务启动)尝试通过hms读取database信息,但这个信息非常大,每个hive sql任务都会触发自己hive插件从而造成多SQL同时执行的时候内存急剧膨胀,发生oom问题。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Spring自定义注解
  • C++中使用分治法求最大值
  • 为什么要用docker?
  • 函数题 6-2 多项式求值【PAT】
  • MySQL——数据库的高级操作(二)用户管理(1)uer表
  • C++ | Leetcode C++题解之第405题数字转换为十六进制数
  • 搭建Eureka高可用集群 - day03
  • ollama语言大模型部署使用
  • 408(笔试)
  • AIGC图片相关知识和实战经验(Flux.1,ComfyUI等等)
  • 【深度智能】:迈向高级时代的人工智能全景指南
  • redis中的5中数据结构
  • 传神论文中心|第25期人工智能领域论文推荐
  • [数据集][目标检测]高铁受电弓检测数据集VOC+YOLO格式1245张2类别
  • 嵌入式硬件基础知识
  • 【mysql】环境安装、服务启动、密码设置
  • 07.Android之多媒体问题
  • 0基础学习移动端适配
  • 2017年终总结、随想
  • Android系统模拟器绘制实现概述
  • C++11: atomic 头文件
  • Cookie 在前端中的实践
  • ES6核心特性
  • happypack两次报错的问题
  • Java教程_软件开发基础
  • weex踩坑之旅第一弹 ~ 搭建具有入口文件的weex脚手架
  • 从零到一:用Phaser.js写意地开发小游戏(Chapter 3 - 加载游戏资源)
  • 猴子数据域名防封接口降低小说被封的风险
  • 聊聊sentinel的DegradeSlot
  • 漂亮刷新控件-iOS
  • 系统认识JavaScript正则表达式
  • 消息队列系列二(IOT中消息队列的应用)
  • 小程序01:wepy框架整合iview webapp UI
  • ​ 轻量应用服务器:亚马逊云科技打造全球领先的云计算解决方案
  • ​Java并发新构件之Exchanger
  • ​一文看懂数据清洗:缺失值、异常值和重复值的处理
  • #Linux(make工具和makefile文件以及makefile语法)
  • (3)nginx 配置(nginx.conf)
  • (day 2)JavaScript学习笔记(基础之变量、常量和注释)
  • (php伪随机数生成)[GWCTF 2019]枯燥的抽奖
  • (不用互三)AI绘画:科技赋能艺术的崭新时代
  • (草履虫都可以看懂的)PyQt子窗口向主窗口传递参数,主窗口接收子窗口信号、参数。
  • (二)十分简易快速 自己训练样本 opencv级联lbp分类器 车牌识别
  • (附源码)springboot炼糖厂地磅全自动控制系统 毕业设计 341357
  • (推荐)叮当——中文语音对话机器人
  • (状压dp)uva 10817 Headmaster's Headache
  • (总结)Linux下的暴力密码在线破解工具Hydra详解
  • .NET Core 中的路径问题
  • .NET MVC 验证码
  • .NET 发展历程
  • .net2005怎么读string形的xml,不是xml文件。
  • .NET开源的一个小而快并且功能强大的 Windows 动态桌面软件 - DreamScene2
  • .NET框架设计—常被忽视的C#设计技巧
  • @param注解什么意思_9000字,通俗易懂的讲解下Java注解
  • [.net 面向对象程序设计进阶] (19) 异步(Asynchronous) 使用异步创建快速响应和可伸缩性的应用程序...