基于Apache doris怎么构建数据中台(五)-数据质量管理

上一次我们讲了,数据怎么进行快速的接入,这次我们讲在接入及后续的数据处理中质量怎么控制

如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战:

  • 缺乏统一监控视图,离线和实时作业监控分散,影响性、关联性不足。
  • 数据质量的衡量标准缺失,数据校验滞后,数据口径不统一。
  • 问题故障处理流程未闭环,点式解决现象常在;缺乏统一归档,没有形成体系的知识库。
  • 数据模型质量监控缺失,模型重复,基础模型与应用模型的关联度不足,形成信息孤岛。
  • 数据存储资源增长过快,不能监控细粒度资源内容。

围绕完整性、准确性、一致性、及时性监控分析数据质量问题、提升企业数据质量。 从数据接入、数据加工、数据导出、指标、数据应用实现全链路血缘跟踪、提前预判数据是否能够准时产出、了解任务失败后影响分析以及快速地修复。做到事前控制,事中处理,事后追踪。

事前(规则丰富多样):

  1. 定义数据监控规则
  2. 模板规则(字段规则,单表规则,多表规则)
  3. 自定规则(SQL),暂不实现

事中(数据流程监控):

  1. 监控和控制数据生成过程
  2. 稽核规则和ETL无缝对接
  3. 定时检查
  4. 数据清洗

事后(数据质量溯源):

  1. 邮件钉钉等及时预警
  2. 问题追踪处理、故障review
  3. 稽核报告查询
  4. 表打分及历史趋势查询

数据质量规则管理

数据质量关键流程步骤:

  1. 质量需求:发现数据问题;信息提报、收集需求;检核规则的需求等。
  2. 提炼规则:梳理规则指标、确定有效指标、检核指标准确度和衡量标准。
  3. 规则库构建:检核对象配置、调度配置、规则配置、检核范围确认、检核标准确定等。
  4. 执行检核:调度配置、调度执行、检核代码。
  5. 问题检核:检核问题展示、分类、质量分析、质量严重等级分类等。
  6. 分析报告:数据质量报告、质量问题趋势分析,影响度分析,解决方案达成共识。
  7. 落实处理:方案落实执行、跟踪管理、解决方案Review及标准化提炼。
  8. 知识库体系形成:知识经验总结、标准方案沉淀、知识库体系建设。
  9. 可以对指定好的规则进行单次执行试运行,以调试规则的正确性

数据质量检验标准:

  • 完整性:主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面;
  • 准确性:一个数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异;
  • 合理性:主要包括格式、类型、值域和业务规则的合理有效;
  • 一致性:系统之间的数据差异和相互矛盾的一致性,业务指标统一定义,数据逻辑加工结果一致性;
  • 及时性:数据仓库ETL、应用展现的及时和快速性,Jobs运行耗时、运行质量、依赖运行及时性。

第一阶段要完成的工作:

首先完成业务数据库的数据接入数据质量,从源头上保障接入数据的质量问题。在这一阶段其实我们是在做接入的ETL,基于技术规则和业务规则进行对数据进行数据清洗,转换加工,对于不符合数据规则的数据进行过滤处理,统一记录以便于后续的手动处理这也数据和反馈给业务系统进行处理。

  1. 根据业务实际情况,抽象定义各个业务的质量规则库,可以按照业务主题管理
  2. 定义通用的数据处理规则模板,比如:日期格式,是否是数字,字符串长度是否超长等
  3. 通过接入的业务元数据,对表和字段进行数据规则定义,通用规则可以从规则库进行选择
  4. 通过统一的规则处理引擎SDK,嵌入到Flink 实时流处理引擎中对数据进行规则判断
  5. 符合规则的数据入数仓,不符合规则的数据,推送到异常数据队列(异常数据,来知道来源,异常类型,时间,严重等级等)
  6. 在异常数据UI界面展示异常数据,并可以对异常数据进行手动处理,重新推送到数仓(kafka-flink job处理)
  7. 数据质量看板(参照原型)
  8. 每日数据质量报告生成

数据质量管理流程

img

数据质量看板

提供统一的数据质量看板,快速了解每天数据质量问题及趋势。并能及时进行追踪处理

img

数据质量规则定义及管理

提供规则的可视化定义,试跑,发布,异常数据处理,规则模板管理等

img

规则定义

img

数据接入任务监控

img

异常数据监控

img

任务流程监控

这里我们是集成海豚调度,所有的任务都是在这里定义和运行,做到统一监控

img

对于数仓内部的数据质量,目前只是做了任务作业监控及预警,及时发现和定位问题,然后有数据开发及分析人员介入进行手动处理和解决问题。

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容