「数据湖篇」一文带你深入理解数据湖

更多精彩好文,尽在微信公众号《大数据阶梯之路》

一、数据湖是什么

数据湖相当于一个汇集着来自各个异构数据源的原生态数据,不经过加工清洗数据,数据的格式也五花八门,结构化和半结构化和非结构化的数据都能够被数据湖管理起来。

那么就引申出数据湖的特点

  • 数据湖的存储能力极强,能容纳海量数据
  • 数据湖中数据格式多,不止结构化数据,还能存储半结构化和非结构化数据
  • 数据湖提供从异构数据源中提取数据和元数据的功能,并能将它们吸纳汇聚到混合存储系统中去
  • 数据湖提供数据转换引擎,支持数据集转换、清洗以及与其他数据集的集成,并提供用于检索和查询数据湖数据和元数据的接口

二、数据湖与数据仓库的区别

  1. 数据湖存储的是原生态数据(结构化或非结构化都可以存储),而数据仓库存储的只能是结构化的数据
  2. 数据湖一般是PB级别的,存储的数据量通常比数据仓库还多,但也存在大型的PB级数据仓库
  3. 数据湖主要面向的用户是数据科学家,数据仓库主要面向的用户是数据开发工程师、数据分析师、数据运营等
  4. 入数据湖的数据一般是直接先装载到数据湖中,当访问时才会去解析成所需要的格式,即读模式;而入数据仓库的数据一般是经过ETL过程后,转换成固定模式的数据,即写模式

数据湖和数据仓库可以用来互补,数据湖可以在非结构化数据处理方面扩展业务能力。对于许多公司来说,通过数据湖来增强现有的数据仓库,已经被证明是一种高效的方式

三、数据湖架构

image.png

数据湖的本质,是由数据存储架构+数据处理工具组成的解决方案。

数据架构存储:要求要有足够强大的扩展性和可靠性,才能存得下和存得久要入湖的数据,比如AmazonWebServices亚马逊云科技的S3云对象存储。
数据处理工具:主要解决2类问题,一类是把数据移动到湖里,一类是管理湖里的数据。

  • 数据移动工具:如定义数据源,制定数据访问策略,安全策略,移动数据,编写数据目录,等等功能。
  • 数据管理工具:如一些数据管理和治理工具,否则元数据缺失的话,湖里的数据质量就没法保障。

总结:数据湖不只是个“囤积”数据的“大水坑”,除了用存储技术构建的湖底座以外,还包含一系列的数据入湖、数据出湖、数据管理、数据应用工具集,共同组成了数据湖解决方案。

接着普及下什么是数据重力 & 数据沼泽 ?

数据沼泽:各式各样的数据都往"湖里倾倒",缺乏元数据管理,最终会把好好的数据湖变成了数据沼泽,导致数据湖中的数据使用困难。
数据重力:指的是随着数据积累越来越多,则要移动它们就越来越难,这便是所谓的数据重力。

四、湖仓一体(Lake House)

Lake House,即所谓的湖仓一体架构,数据湖和数据仓库相结合发挥作用,实现“湖里”和“仓里”的数据/元数据能够无缝打通,并且“自由”流动。比如湖里的“新鲜”数据可以流到仓里,甚至可以直接被数仓使用,而仓里的“不新鲜”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。

上案例:????所讲的场景实际上可以应用到大数据领域中数据治理这一个环节中,比如数仓表的生命周期管理,我们对表不常用的历史分区数据进行归档处理,本质上也就是将这部分数据移动到数据湖中存储,从而使得这部分冷数据换成了低成本的存储,需要时也可以从数据湖中恢复回来,当然这个恢复过程是有代价的。

Lake House不仅要把湖、仓打通,还要克服“数据重力”,让数据在这些服务之间按需来回移动:入湖、出湖、环湖……


image.png

智能湖仓的设计,采用各下游组件都“环湖而造”的理念,既可以直接操纵湖内数据,也可以从湖中摄取数据,还可以向湖中回注数据,同时环湖的服务彼此之间也可以轻松交换数据。

image.png

Amazon Web Services官方给出了智能湖仓的参考架构,如下:

image.png

上面这个六层架构,从数据源定义、数据摄取和入湖入仓,到湖仓打通与集成,再到数据出湖、数据处理和数据消费,一气呵成,各种云上数据服务无缝集成在一起,创新了未来一个新的大数据解决方案。

分享就到此结束了,建议收藏吸纳消化,博文不易,欢迎????点赞,更多精彩好文,尽在微信公众号《大数据阶梯之路》
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容