DataNode 详解及HDFS 2.X新特性-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

DataNode 详解及HDFS 2.X新特性

阅读量：7113 次

发布时间：2019-06-28

本文共 2755 字，大约阅读时间需要 9 分钟。

1. 工作机制

一个数据块在 DataNode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

DataNode 启动后向 NameNode 注册，通过后，周期性（1小时）的向 NameNode 上报所有的块信息。

心跳是每3秒一次，心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器，或删除某个数据块。如果超过 10 分钟没有收到某个 DataNode 的心跳，则认为该节点不可用。

==============================

2. 数据完整性

当 DataNode 读取 Block 的时候，它会计算 CheckSum。

如果计算后的 CheckSum, 与 Block 创建时值不一样，说明 Block 已经损坏。

Client 读取其他 DataNode 上的 Block。

DataNode 在其他文件创建后周期验证 CheckSum；

奇偶校验示例（实际使用的是CRC校验）：

==============================

3. 掉线时限参数设置

DataNode 进程死亡或者网络故障造成 DataNode 无法与 NameNode 通信；

NameNode 不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长;

HDFS 默认的超时时长为10分钟+30秒；

如果定义超时时间为 TimeOut，则超时时长计算公式为：
- TimeOut = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval;
- "dfs.namenode.heartbeat.recheck-interval"默认为5分钟；
- "dfs.heartbeat.interval"默认为3秒；

4. 服役新节点

需求：在原有集群基础上，新增加一个节点。

5. 添加白名单

添加到白名单的主机节点，都允许访问 NameNode，不在白名单的主机节点，都会被退出。

6. 黑名单设置

在黑名单上的主机都会被强制退出。

7. DataNode 多目录配置

DataNode 也可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本。

// hdfs-site.xml
        
     
      dfs.datanode.data.dir
         
     
      file:///${hadoop.tmp.dir}/dfs/data1,file:///${hadoop.tmp.dir}/dfs/data2

8. HDFS 2.X 新特性

8.1 集群间数据拷贝

scp 实现两个远程主机之间的文件复制
- 推（push）: scp -r hello.txt root@IP：端口/user/noodles/hello.txt
- 拉（pull）：scp -r root@IP：端口/user/noodles/hello.txt hello.txt
- 两个远程主机之间： scp -r root@IP1：端口/user/noodles/hello.txt root@IP2：端口/user/test

采用 distcp 命令实现两个 Haoop 集群之间的递归数据复制

bin/hadoop distcp hdfs://IP1：端口1/user/noodles/hello.txt hdfs://IP2:端口2/user/noodles/hello.txt

8.2 小文件存档

HDFS 存储小文件弊端
- 每个文件均按块存储，每个块的元数据存储在 NameNode 的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽 NameNode 中的大部分内存。但注意，存储小文件所需要的磁盘容量和数据块的大小无关。例如，一个1MB的文件设置为128M的块存储，实际使用的是1MB的磁盘空间，而不是128M;

解决存储小文件办法之一
- HDFS 存档文件或HAR文件，是一个更高效的文件存档工具。他将文件存入HDFS块，在减少 NameNode 内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS存档文件对内还是一个一个独立文件，对 NameNode 而言却是一个整体，减少了 NameNode 的内存。

具体操作步骤：
- 启动YARN进程：start-yarn.sh
- 把"/user/noodles/input"目录里面的所有文件归档成一个名为“input.har”的文件，并把归档后的文件存储到“/user/noodles/output”路径下：bin/hadoop archive -archiveName input.har -p /user/noodles/input /user/noodles/output

8.3 回收站案例

开启回收站功能，可以将删除的文件在不超时的情况下，恢复原数据，起到防止误删除，备份等作用。

功能参数说明：
- 默认值：fs.trash.interval=0, 0 表示禁用回收站；其他值表示设置文件的存活时间；
- 默认值：fs.trash.checkpoint.interval=0: 检查回收站的间隔时间。如果该值为0，则该值设置和fs.trash.interval的参数值相等。
- 要求：fs.trash.checkpoint.interval <= fs.trash.interval

8.4 快照管理

快照相当于对目录做一个备份，并不会立即复制所有文件，而是指向同一个文件。当写入发生时，才会发生新文件。
- 开启指定目录的快照功能：hdfs dfsadmin in -allowSnapshot 路径
- 禁用指定目录的快照功能，默认是禁用： hdfs dfsadmin -in disallowSnapshot 路径
- 对目录创建快照：hdfs dfs -createSnapshot 路径
- 创建指定名称的快照： hdfs dfs -createSnapshot 路径名称
- 重命名快照： hdfs dfs -renameSnapshot 路径旧名称新名称
- 列出当前用户所有可快照目录： hdfs lsSnapshottableDir
- 比较两个快照目录的不同之处： hdfs snapshotDiff 路径1 路径2
- 删除快照：hdfs dfs -deleteSnapshot 路径

转载于:https://www.cnblogs.com/linkworld/p/10943098.html

你可能感兴趣的文章

简单聊聊DOM

【JavaScript】JavaScript Array 对象（数组）

github 上有趣又实用的前端项目（持续更新，欢迎补充）

opencv python 直方图均衡化

HotFrameLearning 热门框架学习（前言）

git团队开发流程

【Under-the-hood-ReactJS-Part6】React源码解读

深入理解css之vertical-align

matlab绘制peano（皮亚诺）曲线和koch（科赫曲线，雪花曲线）分形曲线

使用pipenv代替virtualenv管理python包

Docker零基础入门指南(四)：Docker容器使用

React 深入系列4：组件的生命周期

Mybatis之设计模式之迭代器模式

房间号生成器

CentOS 6.8 安装vsftpd

js设计模式 --- 装饰设计模式

Flask源代码阅读笔记（一）——应用启动

IOS精品源码，仿探探UIButton封装iOS提示弹框迅速引导页自定义导航栏

setState的一个Synthetic Event Warning

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-09 05:14:10 当前IP: 18.219.94.100 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我