HDFS Snapshots

hfds快照

Backup 备份

Protection 保护
Application 软件测试
Distributed Copy (distcp) 分布式复制 快照上复制 避免数据不一致
legal and auditing 审计(安全,财务,分析)

首先允许拍摄快照
hdfs dfsadmin -allowsnapshot
命令 用户名 参数

拍摄快照命令
hdfs dfs -createSnapshot <path> [<snapshotName>]
命令 命令 参数 路径 快照名称(时间加路径)

Data rebalancing

数据的再平衡(负载均衡)

  • 增加新节点:
    1.新加的节点不是复制已有数据块

2.存放更新的数据写入

  • 删除失效节点:
    1.失效节点的副本,讲其分散开复制

1.随机写入 均匀分布
2.就近分配 机架原则

  • 不平衡
    1.有些满有些空

hdfs balancer --help
clude 包含
source 指定源文件

门限值
如果超出或低于规定门限值,则会被判定为失衡机器,此时,平衡器将会作出干涉!
如果失衡偏高,平衡器将会降级失衡机器任务
如果失衡偏低,平衡器将会加大机器任务

policy

best practices for dsing balancer

当给机器添加新的数据节点,要运行一下平衡器,保持数据平衡
任务自动启动cron 平衡器在运行过程中,速度会被带宽所影响,所以运行的时候,一般要预留总带宽的百分之十到百分之二十左右
su hdfs -c 'hdfs dfsamin -setBalancerBandwidth 15728640'

注意:启动平衡任务时 注意系统性能 推荐在系统闲时启动

hdfs reads and writes

最后修改:2021 年 04 月 21 日 09 : 41 AM
如果觉得我的文章对你有用,请随意赞赏