hadoop起源与基本
installation 安装方便
Packaging 打包方便 稳定性 已测试
Msintenance(维护) 在发行包里面维护容易 自带GUI环境
Support 发行版具有24/7 的售后知识
Amazon’s Elastic MapReduce 亚马逊
Microsoft Azure 微软

提供云计算
Google Cloudera
IBM cloudera
Hadoop
Doug cutting 基于notch 开发出的Hadoop
由apache 开源并维护

Hadoop 分布式存储 hdfs 磁盘系统 map reduce 处理引擎
YARN 在资源管理器 进程运行的时候进行调度处理等
Hadoop 发行版一般来说按照很有效的方式集成为一种发型包
Hadoop划分七层

HDFS

为什么使用分布式存储
人物画像 精准营销
其中某台机器失效 分布式能无损的正常处理数据
如何定义hdfs
运行在廉价计算机组成的集群上
安装简单 使用简单 采用的类似linux命令行工具
能够对大量的数据高速读写
容错率高 高可用性
一个 block (容错机制,分块,复制机制)64M 128M
3个副本 一个出错 两个继续

访问数据使用“流” 的方式 “流”的定义:数据是连续不断的访问
不需要下载全部即可读写
工作原理: 一次写多次读 write once read many+
不能在单一的计算机上处理数据
采用就近原则 计算的时候尽量在最近的计算机,成本论 可扩展性(理论无限制增加)
高可用性(宕机几率小,不一定速度快)
原因:分布式 节点分配的可用性

大数据的缺点:没有重来的机会
分布式的缺点:不易管理
解决方法:内置分布式管理工具
Hadoop 三大发行版本: Apache、Cloudera、Hortonworks
Cloudera 工具集 GUI
Hortonworks 号称最好文件系统
Amazon’s Elastic MapReduce 亚马逊
Microsoft Azure 微软

体系结构

多人读写大数据时,使用耦合模型
耦合模型
允许后面添加文件块,或者截断文件块,但不允许用户修改文件 限制了用户的行为

名字节点

主奴结构
NameNode 名字节点 目录 索引 主人
DataNode 存储节点 存储数据 奴隶
名字节点采用树形结构 B树结构
三大类
文件系统的名字空间 name 块名
映像文件 fsimage hdfs在某一个时间点的状态
编辑日志 所有对文件系统的操作和改变列表
创建 截断 修改 删除
检查点 日志文件与编辑文件归并的过程为创建新的映像文件
当要求数据节点产生副本的时候,数据节点之间会进行通信

日志节点

保证名字节点(NameNode)的高可用性
并发写锁 采用竞争机制 (锁只有一把 谁拿到谁开始写)
Zookeeper failove controllers
Zookeeper Quorum (失效转移--唯一的一台机器)
Zookeeper Controllers (失效转移控制器)

最后修改:2021 年 04 月 21 日 09 : 45 AM
如果觉得我的文章对你有用,请随意赞赏