当前位置: 首页 > news >正文

.NET 材料检测系统崩溃分析

Windbg 分析

1. 到底是哪里的崩溃

一直跟踪我这个系列的朋友应该知道分析崩溃第一个命令就是 !analyze -v ,让windbg帮我们自动化异常分析。


0:033> !analyze -v
CONTEXT:  (.ecxr)
rax=00000039cccff2d7 rbx=00000039c85fc2b0 rcx=00000039cccff2d8
rdx=0000000000000000 rsi=0000000000000000 rdi=00000039c85fbdc0
rip=00007ffb934b1199 rsp=00000039c85fc550 rbp=00000039c85fc5b8r8=0000000000000000  r9=00000039c85fce90 r10=0000000000000009
r11=0000000000000080 r12=0000000000000000 r13=00000039c85fdaf0
r14=00007ffb933d12b0 r15=0000022939e68440
iopl=0         nv up ei pl nz ac pe cy
cs=0033  ss=002b  ds=002b  es=002b  fs=0053  gs=002b             efl=00010211
clr!Frame::HasValidVTablePtr+0x2a:
00007ffb`934b1199 488b39          mov     rdi,qword ptr [rcx] ds:00000039`cccff2d8=????????????????
Resetting default scopeSTACK_TEXT:  
00000039`c85fc550 00007ffb`934b7107     : 00007ffb`933140d0 00007ffb`933140d0 00000000`00000000 00000000`00000000 : clr!Frame::HasValidVTablePtr+0x2a
00000039`c85fc600 00007ffb`933d3427     : 00000000`00000000 00000000`00000000 00007ffb`93c641e0 00007ffb`93c64c48 : clr!GCToEEInterface::GcScanRoots+0x2f2
00000039`c85fdac0 00007ffb`933d1843     : 00000000`00000000 00007ffb`00000000 00000000`00000000 00000000`00000001 : clr!WKS::gc_heap::mark_phase+0x197
00000039`c85fdb70 00007ffb`933d1762     : 00000000`00000001 00000039`00000000 00000000`00000000 00000000`00000001 : clr!WKS::gc_heap::gc1+0xa3
00000039`c85fdbd0 00007ffb`933d1539     : 00000000`00000001 00000000`00000000 00000229`00af0f88 00000000`00000000 : clr!WKS::gc_heap::garbage_collect+0x54c
00000039`c85fdc50 00007ffb`933d5f51     : 00000000`00000578 00007ffb`00000000 00000229`01ee5200 00000039`c85fdca0 : clr!WKS::GCHeap::GarbageCollectGeneration+0x10d
00000039`c85fdcb0 00007ffb`933d838c     : 00000229`01ee5288 00000000`00000030 00000229`2328ff18 00000229`2328ff18 : clr!WKS::gc_heap::trigger_gc_for_alloc+0x2d
00000039`c85fdcf0 00007ffb`9333a88b     : 00000000`00000030 00000000`00000008 00000000`00000000 00007ffb`00000000 : clr!WKS::GCHeap::Alloc+0x2a9
00000039`c85fdd50 00007ffb`9333a465     : ffffffc6`37a021c8 00000039`c85fded0 00000039`c85fde20 00000039`c85fdf00 : clr!SlowAllocateString+0x8b
...

从卦中的调用栈来看,有如下两点信息:

  • GC 触发了

上面的mark_phase表示当前 GC 正在标记阶段,后面的GcScanRoots表示 GC正在线程栈上寻找根对象。

  • 崩溃点在 clr 中

看到崩溃在clr的 clr!Frame::HasValidVTablePtr 方法中真的有点不敢相信,从崩溃点的汇编代码 rdi,qword ptr [rcx] 来看,貌似 rcx 没有分配到物理内存,可以用 !address rcx 验证下。


0:033> !address rcxUsage:                  Free
Base Address:           00000039`ccb00000
End Address:            00000039`cce00000
Region Size:            00000000`00300000 (   3.000 MB)
State:                  00010000          MEM_FREE
Protect:                00000001          PAGE_NOACCESS
Type:                   <info not present at the target>Content source: 0 (invalid), length: 1fbd28

尼玛,真的好无语,这个rcx=00000039cccff2d8 所处的内存居然是一个 MEM_FREE,访问它自然会抛异常,现在很迷茫的是这玩意是 GC 的内部逻辑,按理说不会有这种异常,难道是 CLR 自己的 bug 吗?

三: 真的是 CLR 的 bug 吗

1. 分析 CLR 源码

要想寻找真相,就必须要理解崩溃处的 CLR 源码了,这里拿coreclr做参考,首先从 clr!Frame::HasValidVTablePtr+2a 处说起,这个方法大概就是用来判断 Frame 类的虚方法表指针是否有效,简化后的代码如下:


// static
bool Frame::HasValidVTablePtr(Frame * pFrame)
{TADDR vptr = pFrame->GetVTablePtr();if (vptr == HelperMethodFrame::GetMethodFrameVPtr())return true;if (vptr == DebuggerSecurityCodeMarkFrame::GetMethodFrameVPtr())return true;if (s_pFrameVTables->LookupValue(vptr, (LPVOID) vptr) == (LPVOID) INVALIDENTRY)return false;return true;
}

这里简单说下什么是虚方法表,如果一个类通过各种渠道拥有了虚方法后,那这个类的第一个字段就是 虚方法表指针,这个指针所指向的虚方法表中存放着每个虚方法的入口地址,画个图大概是这样。

有了这张图再让chatgpt写一段C++代码验证下。


#include <iostream>using namespace std;// 父类
class Animal {
private:int age;
public:virtual void makeSound() {cout << "The animal makes a sound" << endl;}
};// 子类
class Cat : public Animal {
public:void makeSound() override {cout << "The cat meows" << endl;}
};int main() {// 使用父类指针指向子类对象,调用子类重写的方法Animal* animal = new Cat();animal->makeSound(); // 输出 "The cat meows"return 0;
}

上图中的00219b60就是虚方法表指针,后面的0021100a就是虚方法地址了。

有了这些铺垫之后,可以得知是在提取frame虚方法指针的时候,这个地址已被释放导致崩溃的。

2. frame来自于哪里

通过在 coreclr 源码中一顿梳理,发现它是 Thread 类的第四个字段,偏移是0x10,参考代码如下:


PTR_GSCookie Frame::SafeGetGSCookiePtr(Frame* pFrame)
{Frame::HasValidVTablePtr(pFrame)
}BOOL StackFrameIterator::Init(Thread* pThread,PTR_Frame   pFrame,PREGDISPLAY pRegDisp,ULONG32     flags)
{m_crawl.pFrame = m_pThread->GetFrame();m_crawl.SetCurGSCookie(Frame::SafeGetGSCookiePtr(m_crawl.pFrame));
}0:008> dt coreclr!Thread+0x000 m_stackLocalAllocator : Ptr64 StackingAllocator+0x008 m_State          : Volatile<enum Thread::ThreadState>+0x00c m_fPreemptiveGCDisabled : Volatile<unsigned long>+0x010 m_pFrame         : Ptr64 Frame

观察源码大概就知道了 Frame 是栈帧的表示,标记阶段要在每个线程中通过 m_pThread->GetFrame 方法来获取爬栈的起始点。

到这里我们知道了 m_pFrame 有问题,那它到底属于哪个线程呢?

3. 寻找问题 Thread

要想寻找问题线程,可以自己写个脚本,判断下 ThreadOBJ-0x10 = rcx(00000039cccff2d8) 即可。


function invokeScript() {var lines = exec("!t").Skip(8);for (var line of lines) {var t_addr = line.substr(15, 16);var commandText = "dp " + t_addr + " L8";log(commandText);var output = exec(commandText);for (var line2 of output) {log(line2);}log("--------------------------------------")}
}

从卦中数据看终于给找到了,原来是有一个OSID=744的线程意外退出导致栈空间被释放引发的,真的无语了。

接下来的问题是这个线程是用来干嘛的,它做了什么?

4. 778号线程是何方神圣

到这里要给大家一点遗憾了,778号线程已经退出了,栈空间都被释放了,在dump中不可能找到它生前做了什么,不过最起码我们知道如下几点信息:

  • 它是一个由 C# 创建的托管线程
  • 它是一个非 线程池线程
  • 它肯定是某种原因意外退出的

要想知道这个线程生前做了什么,最好的办法就是用 perfview 捕获线程创建和退出的 ETW 事件,到那一天定会水落石出!!!

相关文章:

  • 中华鲲鹏 深耕湾区 华鲲振宇重磅亮相第二届数字政府建设峰会
  • 2023年国赛高教杯数学建模A题定日镜场的优化设计解题全过程文档及程序
  • 代码随想录算法训练营第四十三天| 1049 最后一块石头的重量 II 494 目标和 474 一和零
  • 华为配置Smart Link主备备份示例
  • Android Kotlin 泛型:强大的类型抽象和重用利器
  • 3、APScheduler: 详解Trigger种类和用法【Python3测试任务管理总结】
  • 等等Domino 14.0FP1
  • SCAU:18054 输出不同的数
  • 如何快速制作一个属于自己的网站
  • 【力扣】19. 删除链表的倒数第 N 个结点
  • 【基于Python的厦门二手房分析和可视化】
  • 【网络协议】LACP(Link Aggregation Control Protocol,链路聚合控制协议)
  • Linux学习笔记-Ubuntu下ssh服务器连接异常Connection reset
  • IDEA版SSM入门到实战(Maven+MyBatis+Spring+SpringMVC) -Spring中FactoryBean
  • 基于FPGA的视频接口之高速IO(光纤)
  • [分享]iOS开发-关于在xcode中引用文件夹右边出现问号的解决办法
  • Android Studio:GIT提交项目到远程仓库
  • classpath对获取配置文件的影响
  • Fundebug计费标准解释:事件数是如何定义的?
  • input实现文字超出省略号功能
  • java8 Stream Pipelines 浅析
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • STAR法则
  • 理解在java “”i=i++;”所发生的事情
  • 力扣(LeetCode)22
  • 爬虫进阶 -- 神级程序员:让你的爬虫就像人类的用户行为!
  • 深入浏览器事件循环的本质
  • 数组大概知多少
  • 探索 JS 中的模块化
  • 为什么要用IPython/Jupyter?
  • 小程序测试方案初探
  • 小程序上传图片到七牛云(支持多张上传,预览,删除)
  • 一起来学SpringBoot | 第三篇:SpringBoot日志配置
  • 移动端解决方案学习记录
  • 硬币翻转问题,区间操作
  • 源码之下无秘密 ── 做最好的 Netty 源码分析教程
  • MiKTeX could not find the script engine ‘perl.exe‘ which is required to execute ‘latexmk‘.
  • 选择阿里云数据库HBase版十大理由
  • ​flutter 代码混淆
  • ​Z时代时尚SUV新宠:起亚赛图斯值不值得年轻人买?
  • # Apache SeaTunnel 究竟是什么?
  • # 安徽锐锋科技IDMS系统简介
  • #pragma multi_compile #pragma shader_feature
  • $redis-setphp_redis Set命令,php操作Redis Set函数介绍
  • (Git) gitignore基础使用
  • (Matalb分类预测)GA-BP遗传算法优化BP神经网络的多维分类预测
  • (考研湖科大教书匠计算机网络)第一章概述-第五节1:计算机网络体系结构之分层思想和举例
  • (一)C语言之入门:使用Visual Studio Community 2022运行hello world
  • (转)mysql使用Navicat 导出和导入数据库
  • (转)创业的注意事项
  • .[hudsonL@cock.li].mkp勒索病毒数据怎么处理|数据解密恢复
  • .Mobi域名介绍
  • .NET 8 中引入新的 IHostedLifecycleService 接口 实现定时任务
  • .NET 程序如何获取图片的宽高(框架自带多种方法的不同性能)
  • .NetCore 如何动态路由