HDFS

2.HDFS

Hadoop2.0以后的版本移除了原有的JobTracker和TaskTracker,改由Yarn ResourceManager负责集群中所有资源的统一管理和分配,NodeManager管理单个计算结点

系统架构

image

Active NameNode(AN)

  • 管理命名空间

  • 管理元数据:文件的位置、所有者、权限、数据块等

  • 管理Block副本策略:默认3个副本

  • 处理客户端读写请求,为DataNode分配任务

Standby NameNode(SN)

Block数据块

若一个Block的大小小于设定值,不会占用整个块空间

Block和元数据分开存储:Block存储于DataNode,元数据存储于NameNode

hadoop1.x默认块大小为64M

hadoop2.x默认块大小为128M

可以在hdfs-site.xml中设置:dfs.block.size

NameNode元数据文件

  • edits(编辑日志文件):保存了自最新检查点(Checkpoint)之后的所有文件更新操作

  • fsimage(元数据检查点镜像文件):保存了文件系统中所有的目录和文件信息

  • Active NameNode内存中有一份最新的元数据(= fsimage + edits)

  • Standby NameNode在检查点定期将内存中的元数据保存到fsimage文件中

元数据的两种存储形式

? 内存元数据(NameNode)

? 文件元数据(edits + fsimage) (编辑日志文件 元数据镜像检查点文件)

非HA high available

HDFS主要由三个组件构成,分别是NameNode、SecondaryNameNode和DataNode,其中NameNode和SecondaryNameNode运行在master节点上,DataNode运行在slave节点上

SecondaryNameNode就是来帮助解决上述问题的,它的职责是合并NameNode的edit logs到fsimage文件中。

  1. 首先,它定时到NameNode去获取edit logs,并更新到fsimage上。[笔者注:Secondary NameNode自己的fsimage]
  1. 一旦它有了新的fsimage文件,它将其拷贝回NameNode中。
  1. NameNode在下次重启时会使用这个新的fsimage文件,从而减少重启的时间。

Secondary NameNode:它不是HA(高可用),它只是阶段性的合并edits和fsimage,以缩短集群启动的时间。当NN失效的时候,Secondary NN并无法立刻提供服务,Secondary NN甚至无法保证数据完整性:如果NN数据丢失的话,在上一次合并后的文件系统的改动会丢失

HA方案 hadoop2.0

两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。

  • 当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。
  • standby状态的NameNode定期读取JNs中的变更信息,并且一直监控edit log的变化然后把edits文件和fsimage文件合并成一个新的fsimage,合并完成之后会通知active namenode获取这个新fsimage。active namenode获得这个新的fsimage文件之后,替换原来旧的fsimage文件。
  • standby可以确保在集群出错时,命名空间状态已经完全同步了。

QJM共享存储系统

DataNode

  • Slave工作节点(可大规模扩展)

  • 存储Block和数据校验和

  • 执行客户端发送的读写操作

  • 通过心跳机制定期(默认3秒)向NameNode汇报运行状态和Block列表信息 集群启动时,DataNode向NameNode提供Block列表信息

利用QJM实现元数据高可用

主备NameNode之间通过一组JournalNode同步元数据信息,一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode

active namenode和standby namenode之间是通过一组journalnode(数量是奇数,可以是3,5,7...,2n+1)来共享数据。active namenode把最近的edits文件写到2n+1个journalnode上,只要有n+1个写入成功就认为这次写入操作成功了,然后standby namenode就可以从journalnode上读取了??梢钥吹?,QJM方式有容错的机制,可以容忍n个journalnode的失败。

QJM共享存储系统

Quorum Journal Manager

  • 部署奇数(2N+1)个JournalNode

  • JournalNode负责存储edits编辑日志

  • 写edits的时候,只要超过半数(N+1)的 JournalNode返回成功,就代表本次写入成功

  • 最多可容忍N个JournalNode宕机

利用ZooKeeper实现Active节点选举

Decommission or Recommission(DataNode退役和服役)

删除DataNode(先退役再删除)

自动切换

优缺点

优点:

  • 适合大文件的存储

  • 廉价机器,容错,恢复

  • 流式数据访问,一次写入,多次读取最高效

缺点:

  • 不适合小文件存储

  • 不适合并发写入

  • 不支持文件随机修改

  • 不支持随机读

读写操作

写操作,在client处将文件切分为块

image

读操作,在client处将block拼装成一个文件

image

HDFS读写

1.*****数据块的大小设置为多少合适为什么?*

hadoop数据块的大小一般设置为128M,如果数据块设置的太小,一般的文件也会被分割为多个数据块,在访问的时候需要查找多个数据块的地址,这样的效率很低,而且如果数据块设置太小的话,会消耗更多的NameNode的内存;而如果数据块设置过大的话,对于并行的支持不是太好,而且会涉及系统的其他问题,比如系统重启时,需要从新加载数据,数据块越大,耗费的时间越长。

数据块太小,namenode太累,块太多

太大,恢复时间,并行执行

HDFS写流程:

image
image

1.客户端向NameNode发起写数据,NameNode将信息反馈给Client

2.Client将数据分块, 分块写入DataNode节点,DataNode自动完成副本备份

3.DataNode向NameNode汇报存储完成,NameNode通知客户端

HDFS读流程:

image

1.客户端向NameNode发起读数据的请求

2.NameNode找出最近的DataNode节点信息返回给客户端

3.客户端从DataNode分块下载文件

hadoop常用命令

hdfs dfs -mkdir -p /user/johnson # 创建用户目录
hdfs dfs -ls / 查看目录 本地是看不见的
hdfs dfs -mkdir -p /user/johnson/input
hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml /user/johnson/input

rm -r ./output    # 先删除本地的 output 文件夹(如果存在)
hdfs dfs -get /user/johnson/output ./output     # 将 HDFS 上的 output 文件夹拷贝到本机
hdfs dfs -rm -r output 
copyFromLocal(从**本地系统**->**HDFS系统**)、copyToLocal(从**HDFS系统**->**本地系统**)

运行 Hadoop 程序时,为了防止覆盖结果,程序指定的输出目录(如 output)不能存在,否则会提示错误,因此运行前需要先删除输出目录。

延伸

1.如果通过hadoop存储小文件

  • 可以采用压缩合并小文件的策略

  • 设置文件输入类型:ComnineFileInputFormat

Hadoop分布式缓存

DistributedCache

在执行mr时,mapper之间可能会共享一些数据,如果信息量不大,可以将其从hdfs加载到缓存中

推荐算法

https://www.imooc.com/video/15785

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容

  • HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系...
    大佛爱读书阅读 865评论 0 0
  • (一)分布式文件系统概述 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中...
    时待吾阅读 1,482评论 0 0
  • (一)分布式文件系统概述 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中...
    时待吾阅读 5,433评论 0 1
  • 1. 基本概念 1.1 hdfs是什么? 分布式的文件系统,由多个服务器联合起来实现功能。用来解决海量数据的存储问...
    Java旅行者阅读 534评论 0 1
  • 推荐指数: 6.0 书籍主旨关键词:特权、焦点、注意力、语言联想、情景联想 观点: 1.统计学现在叫数据分析,社会...
    Jenaral阅读 5,708评论 0 5