当前位置: 首页 > news >正文

【Apache Doris】数据副本问题排查指南

【Apache Doris】数据副本问题排查指南

  • 一、问题现象
  • 二、问题定位
  • 三、问题处理

本文主要分享Doris中数据副本异常的问题现象、问题定位以及如何处理此类问题。

一、问题现象

  1. 问题日志

查询报错

Failed to initialize storage reader, tablet={tablet_id}.xxx.xxx
  1. 问题说明

查询时,FE让BE返回spec_version范围的数据,但是BE缺部分version了,就会报这个错误。

  1. 问题原因

迁移副本过程可能丢version,在2.0.3修复了,或者在数据导入过程中be宕机。

注意:
如果版本是2.0.1及以前,且它的所有副本last failed version > 0,通常需要重新建表进行导数。

二、问题定位

如上图所示,查询报错的 tablet_id 是 606202, BE ip是 10.xxx, BE 需要包含version 区间 [0 - 35]。

当确定异常tablet_id时,参考如下步骤先进行问题信息收集:

  1. show tablet {tablet_id} (这里是606202),拿到detail cmd

  2. 执行detail cmd的输出

SHOW PROC ' /dbs/10113/591325/partitions/606195/591326/606202";

找出该BE所在的副本(compact status url中包含有该BE的ip)

  1. 执行curl<步骤2的compact status url>, 该例子是
curl  http://10.xxx:8040/api/compaction/show?tablet_id=606202

查看该副本的rowset 和 missing_rowset,重点看rowset 的最大版本(这里是34)和 missing_rowsets。从上图可以看出该副本的rowset 为 0 ~ 34, 且中间不缺version(missing_rowsets为空)。而查询语句中是 special version 是 [0, 35], 但该BE不含version 35。所以需要给该BE补上version 35。

注意:这里的special version实际就是partition的visible version。 它也可以通过如下指令查看。

show partitions from <table-name xxx> where PartitionName = '<partition name xxx>' 

三、问题处理

  1. 确认是否自动修复

由于doris内部会自动做数据均衡和修复,所以当出现数据副本异常时,先确认异常数据副本能否自动修复:

如果是多副本,查看是否存在健康副本。健康副本是指副本version >= special version && last failed version = -1 && isBad = false, 且curl 它的 compact status, missing rowsets 为空。

如果存在这样的副本,把查询报错的副本set bad,如上图所示BackendId为10003上版本远落后于其他两个副本的version,可以通过设置为bad来自动修复。

ADMIN SET REPLICA STATUS PROPERTIES("tablet_id" = "7552021", "backend_id" = "10003", "status" = "bad");

等待一会(可能需要一两分钟),再执行步骤2中的detail cmd,如果副本都健康了:

version >= special version && last failed version = -1 && isBad = false

且curl它的compact status, missing rowsets为空,说明修补OK了。且执行select count (*) from table_xx 是否OK。

如果没问题,就自动修复完成了,不用往下看。如果还是有问题,接着往下看。

  1. 重新导数手动修复
  • 如果是多个副本都损坏,并且是分区表的情况下,可以删除这个分区,然后手动重建这个分区,重新导入数据即可。
  • 如果是多个副本都损坏,并且是非分区表的情况下,只能删除这个表重新导入数据。
  1. 填充空副本进行修复

注意:
以上两个方法可以恢复丢失的数据,而填充空副本方法,是插入若干个空rowset,它能恢复读写。但如果丢失的rowset是包含数据的,这种方法实质是丢数据的。

空副本修复方式如下:

curl -X POST "http://10.151.2.29:8040/api/pad_rowset?tablet_id=606202&start_version=35&end_version=35"
  • tablet_id table 的 id
  • start_version 起始版本
  • end_version 终止版本

该功能用于使用一个空的 rowset 填充损坏的副本。这个例子中修补的url中 start_version = 35, end_version = 35。

这个例子只是缺一个rowset, 实际中可能缺多个(missing rowset,最大version + 1 ~ special version),缺多少个rowset,就调用多少次修补的方法。

修补完之后,再执行下show tablet xxx,该副本last fail version 是否等于 -1,如果它的version都补上了,但是last fail version = version + 1, 还需要手工执行把last fail version 改成 -1:

ADMIN SET REPLICA VERSION PROPERTIES("tablet_id" = "10003", "backend_id" = "10001", "last_failed_version" = "-1");

低版本的doris可能不含这个SQL, 如果不支持这个SQL且是单副本的,通常需要重新建表进行导数。

如果没问题,使用

select count(*) from table_xx;

查看是否可读,可读则说明数据副本问题已处理。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • StarryCoding-35:鼠鼠我鸭
  • C语言开关迷宫
  • 物理机 gogs+jenkins+sonarqube 实现CI/CD
  • Ubuntu转竖屏,文件解锁和查看mac地址命令记录
  • 力扣141环形链表问题|快慢指针算法详细推理,判断链表是否有环|龟兔赛跑算法
  • ECCV2024|LightenDiffusion 超越现有无监督方法,引领低光图像增强新纪元!
  • Jsoup爬虫——自学习梳理
  • Connecting weaviate with langflow across docker containers
  • 【OpenCV C++20 学习笔记】调节图片对比度和亮度(像素变换)
  • STM32-寄存器DMA配置指南
  • Web响应式设计———1、Grid布局
  • 算法学习笔记(8.8)-多重背包
  • 【运维笔记】数据库无法启动,数据库炸后备份恢复数据
  • 深入理解JS中的发布订阅模式和观察者模式
  • Windows系统设置暂停更新,暂停时间可达3000天,“永久”暂停更新,亲测有效
  • Apache的基本使用
  • Bytom交易说明(账户管理模式)
  • CentOS6 编译安装 redis-3.2.3
  • centos安装java运行环境jdk+tomcat
  • PaddlePaddle-GitHub的正确打开姿势
  • Promise面试题,控制异步流程
  • UEditor初始化失败(实例已存在,但视图未渲染出来,单页化)
  • 力扣(LeetCode)21
  • 买一台 iPhone X,还是创建一家未来的独角兽?
  • 如何用Ubuntu和Xen来设置Kubernetes?
  • 实战|智能家居行业移动应用性能分析
  • 无服务器化是企业 IT 架构的未来吗?
  • ​​快速排序(四)——挖坑法,前后指针法与非递归
  • ​1:1公有云能力整体输出,腾讯云“七剑”下云端
  • ​ssh免密码登录设置及问题总结
  • #window11设置系统变量#
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • #数据结构 笔记一
  • $().each和$.each的区别
  • (09)Hive——CTE 公共表达式
  • (附源码)node.js知识分享网站 毕业设计 202038
  • (欧拉)openEuler系统添加网卡文件配置流程、(欧拉)openEuler系统手动配置ipv6地址流程、(欧拉)openEuler系统网络管理说明
  • (四)七种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • (一) storm的集群安装与配置
  • (一)eclipse Dynamic web project 工程目录以及文件路径问题
  • (转)scrum常见工具列表
  • (自适应手机端)响应式服装服饰外贸企业网站模板
  • .NET 8 编写 LiteDB vs SQLite 数据库 CRUD 接口性能测试(准备篇)
  • .NET/C# 异常处理:写一个空的 try 块代码,而把重要代码写到 finally 中(Constrained Execution Regions)
  • .NetCore实践篇:分布式监控Zipkin持久化之殇
  • @Autowired标签与 @Resource标签 的区别
  • @serverendpoint注解_SpringBoot 使用WebSocket打造在线聊天室(基于注解)
  • [ Linux ] Linux信号概述 信号的产生
  • [ 数据结构 - C++] AVL树原理及实现
  • [20170728]oracle保留字.txt
  • [android] 手机卫士黑名单功能(ListView优化)
  • [Angular] 笔记 6:ngStyle
  • [AR]Vumark(下一代条形码)
  • [AutoSar]BSW_Memory_Stack_004 创建一个简单NV block并调试
  • [c++] 什么是平凡类型,标准布局类型,POD类型,聚合体