当前位置: 首页 > news >正文

找回HDFS corrupted文件残留数据

因为某种历史原因集群出现了一批corrupted文件。读取这些文件会报“BlockMissingException”异常,例如:

6/11/08 19:04:20 WARN hdfs.DFSClient: DFS Read
org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-221196964-172.23.64.95-1477965231106:blk_1073748785_7961 file=/hadoop-2.7.3.tar.gz
    at org.apache.hadoop.hdfs.DFSInputStream.chooseDataNode(DFSInputStream.java:983)
    at org.apache.hadoop.hdfs.DFSInputStream.blockSeekTo(DFSInputStream.java:642)
    at org.apache.hadoop.hdfs.DFSInputStream.readWithStrategy(DFSInputStream.java:882)
    at org.apache.hadoop.hdfs.DFSInputStream.read(DFSInputStream.java:934)
    at java.io.DataInputStream.read(DataInputStream.java:100)
    at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:91)
    at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:59)
    at org.apache.hadoop.io.IOUtils.copyBytes(IOUtils.java:119)
    at org.apache.hadoop.fs.shell.CommandWithDestination$TargetFileSystem.writeStreamToFile(CommandWithDestination.java:466)
    at org.apache.hadoop.fs.shell.CommandWithDestination.copyStreamToTarget(CommandWithDestination.java:391)
    at org.apache.hadoop.fs.shell.CommandWithDestination.copyFileToTarget(CommandWithDestination.java:328)
    at org.apache.hadoop.fs.shell.CommandWithDestination.processPath(CommandWithDestination.java:263)
    at org.apache.hadoop.fs.shell.CommandWithDestination.processPath(CommandWithDestination.java:248)
    at org.apache.hadoop.fs.shell.Command.processPaths(Command.java:317)
    at org.apache.hadoop.fs.shell.Command.processPathArgument(Command.java:289)
    at org.apache.hadoop.fs.shell.CommandWithDestination.processPathArgument(CommandWithDestination.java:243)
    at org.apache.hadoop.fs.shell.Command.processArgument(Command.java:271)
    at org.apache.hadoop.fs.shell.Command.processArguments(Command.java:255)
    at org.apache.hadoop.fs.shell.CommandWithDestination.processArguments(CommandWithDestination.java:220)
    at org.apache.hadoop.fs.shell.Command.processRawArguments(Command.java:201)
    at org.apache.hadoop.fs.shell.Command.run(Command.java:165)
    at org.apache.hadoop.fs.FsShell.run(FsShell.java:287)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:84)
    at org.apache.hadoop.fs.FsShell.main(FsShell.java:340)

而通过fsck命令可以看到,corrupted文件只丢失了一个或几个block,还有多个block残留,例如:

bin/hdfs fsck /hadoop-2.7.3.tar.gz -files -blocks
Connecting to namenode via http://localhost:50070/fsck?ugi=user&files=1&blocks=1&path=%2Fhadoop-2.7.3.tar.gz
FSCK started by user (auth:SIMPLE) from /127.0.0.1 for path /hadoop-2.7.3.tar.gz at Tue Nov 08 19:03:38 CST 2016
/hadoop-2.7.3.tar.gz 214092195 bytes, 2 block(s):  Under replicated BP-221196964-172.23.64.95-1477965231106:blk_1073748784_7960. Target Replicas is 3 but found 1 replica(s).

/hadoop-2.7.3.tar.gz: CORRUPT blockpool BP-221196964-172.23.64.95-1477965231106 block blk_1073748785
 MISSING 1 blocks of total size 79874467 B
0. BP-221196964-172.23.64.95-1477965231106:blk_1073748784_7960 len=134217728 repl=1
1. BP-221196964-172.23.64.95-1477965231106:blk_1073748785_7961 len=79874467 MISSING!

在Missing Block找回无望情况下,尽可能降低损失的办法是恢复残留的数据。但是读取corrupted文件又会失败,怎么处理呢?答案就是hack代码。需要hack的类是DFSInputStream,原理就是遇到Missing Block就跳过,能读多少读多少。以下是hack的diff:

--- a/hadoop-hdfs-project/hadoop-hdfs/src/main/java/org/apache/hadoop/hdfs/DFSInputStream.java
+++ b/hadoop-hdfs-project/hadoop-hdfs/src/main/java/org/apache/hadoop/hdfs/DFSInputStream.java
@@ -882,7 +882,20 @@ private synchronized int readWithStrategy(ReaderStrategy strategy, int off, int
           // currentNode can be left as null if previous read had a checksum
           // error on the same block. See HDFS-3067
           if (pos > blockEnd || currentNode == null) {
-            currentNode = blockSeekTo(pos);
+              while (true) {
+                  try {
+                      currentNode = blockSeekTo(pos);
+                  } catch (BlockMissingException e) {
+                      LocatedBlock targetBlock = getBlockAt(pos);
+                      DFSClient.LOG.warn("Ignore BlockMissingException, try next block " + targetBlock.getBlock());
+                      pos += targetBlock.getBlockSize();
+                      if (pos >= getFileLength()) {
+                        return -1;
+                      }
+                      continue;
+                  }
+                  break;
+              }
           }
           int realLen = (int) Math.min(len, (blockEnd - pos + 1L));
           synchronized(infoLock) {

hack之后替换下客户端的hadoop-hdfs-2.7.2.jar即可。这样就可以下载文件,或者拷贝到HDFS其他路径。由于遇到读取失败的Block,DFSClient会重试三次,中间会sleep一段时间。为了加快速度可以把sleep时间缩短,比如设置dfs.client.retry.window.base=1。
以上为一种恢复corrupted文件残留数据的一种方式。当然HDFS数据管理上策是设置3个备份,中策是一旦发现corrupted文件,尽量到磁盘上找回block数据。下策才是本文介绍的方法。

相关文章:

  • Oracle 执行计划(Explain Plan)
  • MSSQL2008-2012数据库的字段类型整理
  • Vector的一种实现(二)
  • 前端导出Excel兼容写法
  • 洛谷 P1529 回家 Bessie Come Home Label:Dijkstra最短路 乱搞
  • zookeeper适用场景:zookeeper解决了哪些问题
  • Linux打补丁的一些问题
  • 服务器日志追踪
  • bootstrapValidator.js,最好用的bootstrap表单验证插件
  • 搭建简单FTP服务器以及过程中容易遇到的几个问题(一)
  • - C#编程大幅提高OUTLOOK的邮件搜索能力!
  • vs2015密钥 企业版 专业版 (vs.net)
  • MySQL管理与优化(20):备份与恢复
  • mysqldump 备份命令使用中的一些经验总结
  • Mysql开启慢查询日志
  • gcc介绍及安装
  • Javascript基础之Array数组API
  • Js基础——数据类型之Null和Undefined
  • SpringCloud集成分布式事务LCN (一)
  • vue-cli3搭建项目
  • zookeeper系列(七)实战分布式命名服务
  • 深度学习之轻量级神经网络在TWS蓝牙音频处理器上的部署
  • Java性能优化之JVM GC(垃圾回收机制)
  • 摩拜创始人胡玮炜也彻底离开了,共享单车行业还有未来吗? ...
  • 整理一些计算机基础知识!
  • ​secrets --- 生成管理密码的安全随机数​
  • ​马来语翻译中文去哪比较好?
  • ​一文看懂数据清洗:缺失值、异常值和重复值的处理
  • #绘制圆心_R语言——绘制一个诚意满满的圆 祝你2021圆圆满满
  • #我与Java虚拟机的故事#连载14:挑战高薪面试必看
  • $(function(){})与(function($){....})(jQuery)的区别
  • $(selector).each()和$.each()的区别
  • (1)Map集合 (2)异常机制 (3)File类 (4)I/O流
  • (2022版)一套教程搞定k8s安装到实战 | RBAC
  • (4) openssl rsa/pkey(查看私钥、从私钥中提取公钥、查看公钥)
  • (9)STL算法之逆转旋转
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第2节(共同的基类)
  • (Redis使用系列) SpringBoot中Redis的RedisConfig 二
  • (二十一)devops持续集成开发——使用jenkins的Docker Pipeline插件完成docker项目的pipeline流水线发布
  • (附源码)springboot炼糖厂地磅全自动控制系统 毕业设计 341357
  • (实战篇)如何缓存数据
  • .NET(C#、VB)APP开发——Smobiler平台控件介绍:Bluetooth组件
  • .NET的微型Web框架 Nancy
  • .net分布式压力测试工具(Beetle.DT)
  • /etc/skel 目录作用
  • @Transactional 详解
  • @Transactional注解下,循环取序列的值,但得到的值都相同的问题
  • [ vulhub漏洞复现篇 ] Celery <4.0 Redis未授权访问+Pickle反序列化利用
  • [C#]使用PaddleInference图片旋转四种角度检测
  • [CDOJ 1343] 卿学姐失恋了
  • [CF]Codeforces Round #551 (Div. 2)
  • [Cocoa]iOS 开发者账户,联机调试,发布应用事宜
  • [C语言]——柔性数组
  • [HeMIM]Cl,[AeMIM]Br,[CeEIM]Cl,([HO-PECH-MIM]Cl,[HOOC-PECH-MIM]Cl改性酚醛树脂
  • [Hibernate] - Fetching strategies