hdfs的读写操作

写入
名字节点创建的文件 在哪个数据节点创建并存储的索引信息
通过输出流写入信息、采用数据流协议访问
所有数据报文都是并发性操作的
检查权限 制定大小
有缓存空间 确认包裹
释放缓存资源

读取
写入一次多次读取
造成原因:打开会失败 有异常概率 权限无
如果文件名出错 则会找不到文件
读取数据时,根据文件地址读取数据,采用就近原则
第一次访问数据时,采用头的访问,读取第一个数据块

短路读取
short circuit reads
三次握手 是非常耗费资源的
四次握手 是在拆除的情况下
如果读取与客户端都在同一台机器上:
在2.0以前的机器上,数据访问会经过外部交换机与路由器,数据效率大幅下降
在3.0的机子上,数据会直接在内部创建访问进程直接通信!

MAnaging disk-skewed data in hadoop 3.0
数据在每一个磁盘上均匀分布
不能出现有些地方有 有些地方没有,不能出现同一个磁盘很多的情况

在旧版本 磁盘的数据不均匀必须得用人力发现和人力干涉

disk data distribution report
发现数据不稳定或数据分布不均匀的报告
并且找出磁盘分布最不均匀的情况

Performing data balancing on live DataNodes
执行比较报告

磁盘:
hdfs diskbalancet -plan [域名或者ip地址] -out <file_folder_location>

hdfs diskbalancer -execute
<file_folder_location> / <datanode1> . plan.json

hdfs diskbalancer -query

以上命令是hdfs中常用的磁盘命令

懒惰持久化写
Lazy persist writes in HDFS
数据在小于64M以下的情况下,先将数据放到缓存中
针对临时数据

虚拟磁盘
由机器的内存分配出的一片存储数据的专用空间
造成内存利用率降低

最后修改:2021 年 04 月 21 日 09 : 42 AM
如果觉得我的文章对你有用,请随意赞赏