常用shell文件操作命令

上传与下载
hadoop fs -copyFromLocal 本地路径文件 目标主机地址
或者
Hadoop fs -put 本地文件路径 目标主机路径
拉取至本地:
Hadoop fs -get 目标文件地址 本地存放路径 Hadoop fs -copyToLocal 目标文件地址 本地存放路径
拷贝命令
Hadoop fs -cp 文件地址 目标文件地址
du
Hadoop fs -du 「-h」 路径
合并文件
Hadoop fs -getmerge 需要合并的文件夹路径 合并后的存放位置
合并文件可选参数:
-skip-empty-file:在合并的时候跳过空文件
创建目录
hadoop fs -mkdir -p 创建路径
-p:如果在创建某个目录时,创建目录没有父目录,此参数将会自动创建目录的父目录
删除
hadoop fs -rm -r -skipTrash 删除路径
-skipTrash hadoop删除文件时,会默认将删除文件移至回收站,如不需要回收站,此命令将会直接跳过回收站,执行删除
-r 递归删除
所有者
hadoop fs -chown -R 路径
-R:如果更改使用者权限的执行路径内有多个文件,此命令将会采取递归方式
更改文件所用者 默认改为当前用户
标准输出
hadoop fs -cat 文件路径
将文件打印至标准输出上

Distributed copy

分布式复制

创建MapReduce任务
hadoop distcp hdfs://主机1ip:端口/路径 hdfs://主机2ip:端口/路径 hdfs://主机3ip:端口/路径

Admin commands

管理命令

hdfs dfsadmin -report -live 报告正在活动的数据节点
hdfs dfsadmin -report -dead 报告已经失效的数据节点
此命令是管理员进行节点平衡机制时检查所用
安全模式
此模式下,将会阻止集群的写入等修改性操作,整个文件系统属于只读模式,进行维护
loads fsimage :读取磁盘上的镜像
Applies edit log : 查看保存log文件

手动进入安全模式:
hdfs dfsadmin -safemode enter/get/leave 进入/离开/查看是否处于安全模式
手动进入的安全模式只能手动退出

HDFS注意

名字节点与数据节点处于主仆关系
附加名字节点利用文件的映像和编辑日志节点的日志进行合并同步
HDFS文件中的文件划分为块存储 根据复制因子(默认3)
负载均衡

Hadoop资源管理

HDFS:存储数据
MapReduce:处理数据

  • YARN architecture 体系结构
  • YARN job scheduling and different types of scheduling
  • Opportunistic
  • YARN

*Architecture

*资源谈判者

  • Scalability 在hadoop1.X中引用 作业和任务 作业跟踪器可以让多个任务重载 但是有限制 他需要使用大量时间进行监控和调度 对任务数值和作业数值作出限制 任务不能超过4ooo个 完成的任务不能超过40000
  • High availabilit 很难改善高可用性,同步性很难 在JobTracker(只能使用一个)失效后,整个系统都将瘫痪
  • Memory utilization 在Hadoop1.x中 内存的利用方面不高效 因为是将任务槽事先分配好,在运行过程中,即使任务槽闲置,此任务槽也不能进行再分配和使用
  • Non MapReduce jobs 在hadoop版本1中 必须借助MapReduce才能执行,系统内不能出现非MapReduce作业类型 比如图处理等,必须使用HDFS
    因为有这些缺陷,所以替代者YARN出现!

客户端在使用任务的时候,首先需要提交作业才可以使用
资源管理器与名字节点直接属于一对多的情况
node manager:根据资源管理器的指令,来启动或者运行容器,每隔一段时间,发送内存,磁盘等信息,资源管理器会根据这些信息,进行调度

Application Manager/应用程序管理器:每一个应用程序有一个独立的Application Manager 提交信息后,YARN将会启动一个专用的对于特定作业的Application Master 然后就会响应并执行
由app Master发送心跳信息给Application Manager
运行在某一个节点管理器中的某个容器里面,为了使得应用程序顺利的执行结束,此节点将会在内部进行协调

client Manager

Client component:使用rmadmin 就可以使用所有的操作
clientRMService 普通客户端中使用的类
AdminService 服务客户端中使用的类
Core component:一样

RMStatrStore:FileSystemRMStateStore 文件管理系统 MemoryRMStateStore 内存管理系统 ZKRMStateStore zkr管理 NUllRMStateStore 空资源管理器
SchedulingMonitor调度监控计算机 根据各种调度算分记性资源分配编辑,对容器的监控
RMAppManager应用程序管理器 管理YARN中的应用程序的列表与日志

节点管理器

每隔一段时间像资源管理器发送一段心跳信息 资源管理器收到后进行节点的调度与管理

最后修改:2021 年 04 月 21 日 09 : 45 AM
如果觉得我的文章对你有用,请随意赞赏