数据仓库之质量管理

数据仓库,通过etl工具将多源数据进行集成,内部实现对业务数据的清洗、加工、模型、算法等,以实时或离线的方式对外提供数据服务,为部门或企业的决策提供有效支持。而数据质量是数据分析结论有效性和准确性的基础,也是一切的前提。

而数据质量也是考验一个数仓稳定性、是否成功的基础。而保障数据质量所面临的挑战也十分的巨大,数仓的数据链路长,对接的服务多,交叉的复杂性等决定数据质量是一个综合性问题,它的成功是由多方面因素决定的。

本文参考个人工作、网络博客、《阿里大数据之路》,思考对于如何保障数据仓库下的数据质量的一些思考,如有不足之处欢迎沟通。

数据质量原则

数仓以数据集成,面向企业提供数据查询(OLAP)的方式存在,目前可分为实时和离线两种应用场景。当前实时??椴⑽捶⒄蛊鹄矗岳胂叱【白魑饕悸堑?。结合数仓本身的特点,给出数据质量的几个原则

  • 完整性

    记录完整性:数据清洗、处理、加工处理过程中,数据没有缺失、遗漏等

    信息完整性:库、表、字段信息完整未丢失,如表、字段的注释,表与表之间存在的关系信息等

  • 准确性

    包括记录的信息和数据是否准确,是否包含异常数据或错误的信息

  • 一致性

    数据在不同的层级或链路中流转,最后提供查询接口或服务等。那么,数据在整个过程中是否保持一致,如字段名称、类型、释义等

  • 及时性

    数据都有一定的时效性,不同的业务指标或数据服务时效不同,要保障特定时间下能够及时地提供数据

数据质量保障

数据质量发生的原因

在实际工作中,大致可分为三类,具体如下


数据质量-原因总结.png

如何保障数据质量

数仓一般在离线环境下,存储着海量的数据。与线上的OLTP相比,并没有一套成熟的测试体系来保障数据在复杂流程中的质量问题。有效的数据是一项非常重要的资产,而缺乏质量的数据则像一堆无用又浪费资源的磁盘。

  1. 加强数据校验

    在etl开发过程中,在数据清理、加工、整合等环节中应增加数据的校验。如:

    • 数据量的校验 数仓层级之间的数据流转,rowCount是否发生改变

    • 异常值的校验 对于开发完成后的表,应检查是否存在异常值。如金额有负值,是否有空值,性别字段等

    • 业务逻辑验证 比较源数据结果与目标的数据结果,是否不一致

    • 脚本/代码测试 开发的代码是否存在明显问题,如中文字符等。在测试环境中是否可以正常运行

  2. 自动化服务

    一套成熟的开发平台,将调度、质量、元数据、etl开发、模型开发进行整合,是最好的选择。

  3. 提升数据产品化认知

    数仓将来自于业务系统的多源数据通过集成方式进行整合并对外提供数据查询,在数仓基础之上构建的各种数据服务平台都是数仓数据的消费者,如报表平台、分析平台、推荐平台、接口平台等。数仓是以提供数据而存在的产品

  4. 质量文化

    I. 数据生产者对自己的数据质量和元数据负责

    II. 为消费者提供必要的数据使用信息

    III. 数据有生命周期,应考虑不同阶段的数据演进过程

数据质量衡量

  1. 数据消费者层面

    提供及时、有效的准确数据,当数据链路中存在问题时能够快速的通知到数据消费者,并能够快速定位上游数据问题及排查恢复时间点

  2. 数据开发层面

    I. 数仓夜里值班的起夜率

    II. 数仓内部流程与规范的一致性

参考

  1. 数据仓库之数据质量篇

  2. 《大数据之路-阿里巴巴大数据实践》

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容

  • 课程目标 1.影响数据质量的因素、数据质量问题类型2.了解MaxCompute(DataIDE)产品3.通过Dat...
    SunnyRivers阅读 1,381评论 0 8
  • “当你们还在凑星座的时候,哥已经在凑生肖了”,这是崇尚恣意生活方式的任逸帆所说,这个人物来自网络神剧《一起同过窗》...
    无尚先生阅读 1,003评论 2 3
  • 昨天还难受的要死,因为一件事情的落地,感觉今天的天空都是那么的明亮!我不是一个会控制情绪的人……别人的一举一动,都...
    猫咪爱吃鱼_1340阅读 202评论 0 0
  • 脚下永踩大地 头上永顶蓝天 身为热血男儿 不必优柔寡断、停歇、退缩、不敢向前 舞起手中长剑 劈开前面阻挡的...
    王人广阅读 249评论 1 1