背景介绍
随着信息经济发展,以⼤数据为代表的信息资源正在朝着⽣产要素的形态演进:
中共中央、国务院近⽇发布的《关于构建更加完善的要素市场化配置体制机制的意见》,将数据纳⼊⽣产要素范围,明确加快培育数据要素市场;
今年的政府⼯作报告中也明确指出,需要培育技术和数据市场,激活各类要素潜能;
铝铁合金
数据成为⽣产要素,是对其价值的充分肯定,对于数字经济的发展起到导向作⽤。但现阶段我国数据要素市场化配置尚处于起步阶段,仍需加强探索与完善。作为值得信赖的数据智能科技服务专家,联通⼤数据公司在数据要素市场化、数据资产管理等领域有了较丰富的沉淀,基于此,我们在今天的推送中,将公司在数据资产管理平台的设计、研发与运营⽅⾯的实践经验进⾏梳理,欢迎⼤家共同探讨、指正。
本⽂作者:尹正军,联通⼤数据公司⾼级架构师
上⼀期传送门→
硬核科普 | ⼤数据资产管理平台实践(上):定义、⽬标、挑战
五
数据资产管理平台的功能设计
(⼀) 整体架构设计: ⼀站式端到端数据治理管控
Q:这个平台有这么多功能模块啊!如何理解这些模块的定位和价值呢?
tek-081A:简单的说,我们的数据资产管理平台=数据治理平台+数据服务平台,其中数据服务平台的核⼼是能⼒开放平台,包括租户建模分析平台、数据查询分析、数据资源共享交换、数据能⼒商店、API服务中⼼等典型应⽤。
再举⼀个⼩例⼦,当你想在数据仓库中建⼀张表(模型),⾸先就是借助于数据开发平台的数据模型管理模块,进⾏逻辑模型设计,这⾥涉及到表命名和字段schema结构的定义与配置;表命名可以参考数据标准模块的相关规范要求来定义,字段设计可选择直接导⼊ER图,或者参考数据标准管理模块中的标准(历史相似)模型对应的数据元(属性)、代码集(字典)、数据集(属性集合)等条⽬信息进⾏设计,逻辑模型设计之后选择相应数据源进⾏物化处理,从⽽⽣成产线环境中的物理模型,这⾥的数据源是基于平台中数据源管控功能进⾏配置管理。当模型上线后,我们可能会基于数据集成平台的数据采集交换模块,从其他数据源系统导⼊相应的表数据,同时会触发元数据管理模块中的元数据采
集及变更管控稽核功能,确保模型的所有变更状态能够及时通知数据组织相关⼈员;然后是基于数据加⼯过程管理模块,围绕新建的表进⾏加⼯过程(通常是SQL或Shell脚本)的标准化管理,这⾥的标准化是指根据加⼯的基础模板⾃动⽣成相应加⼯脚本处理模型,并⼀键完成该处理模型的仿真测试和上线;在仿真测试阶段和正式上线后,都会涉及到数据集成平台的⼯作流调度;上线⼀段时间后,可能会遇到数据质量问题,则可采⽤数据质量平台对模型中的数据进⾏数据质量稽核,还可能会遇到表数据具备问题,⽐如每天凌晨批处理过程执⾏前,数据没有按时具备,以⾄于对后续处理产⽣影响,这时就可以借助元数据管理模块的⾎缘分析和数据地图功能,⼤致评估出影响范围;同时,根据数据集治理平台的底层洞察功能,到该数据模型相关⼤数据作业处理背后的底层存储和计算瓶颈,然后进⾏数据治理优化动作的实施;数据质量问题和集治理问题解决之后,可以通过数据服务平台开放共享给内外部租户,刚才提到的数据采集交换、元数据稽核、数据质量稽核等任务,都会交给数据集成平台的⼯作流模块进⾏调度处理,另外,涉及到该模型后续的使⽤消费、变更删除等操作,会由数据开发平台⽣命周期模块全局管控。
(⼆) 数据集成平台:解决数据采集交换与调度问题
定位与⽬标:
把政府、企业内外部数据快速整合到⼀起,通常会包含数据采集交换和⼯作流调度系统,如果还要⽀
SSL检测撑DataOps数据开发运维运营⼀体化平台功能落地的话,需提供⼤数据平台与⽣产应⽤系统的双向通信能⼒,⽅便构建数据开发、运维、治理、运营闭环系统。
核⼼模块列表:
数据采集交换平台、数据⼯作流调度系统、数据应⽤代理系统。
主要功能列表:
数据源原理:RDBMS、MPP、Hadoop、txtFile、ftp等
映射管理:映射新增、映射设计、映射导⼊、⽬录编辑与迁移
流程管理:流程汇总、导⼊/添加⼯作流、流程编排、流程实例管理(⽇志查看、重跑、暂停、失败恢复)、⽬录编辑与迁移
运⾏监控:资源监控、异常监控(调度和宕机)、历史流程实例查看与清理
配置管理:⼯作流消息配置、⾃定义插件维护、计划调度管理、作业组管理、计算资源管理、流程模板管理、⾃定义函数管理
参考设计:
(三) 数据开发平台:解决数据开发标准化问题
定位与⽬标:
⽀撑数据模型设计、数据加⼯脚本标准化,实现开发、测试、上线过程⾃动化,保障数据模型与⽣命周期管理标准落地。
核⼼模块列表:
数据模型管理、数据脚本过程管理、数据⽣命周期管理。
主要功能列表:
开发模板管理:开发模板查询、导⼊、版本控制、删除、状态管控
开发内容管理:内容⽬录管理、开发过程管理(新建、测试、审批、部署、下线)
开发内容审批:开发内容详情、资源消耗消息、开发内容审批
执⾏⽇志管理:执⾏⽇志⽣产、执⾏⽇志查询
Agent组管理:组详情、组编辑和创建
Agent管理:服务器管理、主机⽤户过滤设置、组同步、状态变更
参考设计:
(四) 元数据管理平台:解决数据资产盘点问题
(四) 元数据管理平台:解决数据资产盘点问题
定位与⽬标:
基于技术元数据、业务元数据和管理元数据的采集与分析,实现数据⾎缘、影响分析和全链分析,解决内部数据资产统⼀盘点和运营问题。
核⼼模块列表:
元数据采集、元数据存储、元数据分析、元数据应⽤。
主要功能列表:
元模型管理:元模型属性定义、分类权限管控、异构元数据⽀撑、元模型与元数据关系映射管理
元数据采集管理:元数据采集⽅式、元数据解析、元数据⼊库
元数据稽核:元数据版本稽核管控、元数据标准稽核
元数据应⽤
⾎缘分析:⾎缘数据采集、⾎缘全链解析
影响分析:⾎缘数据采集、下游⽣成实体分析
资产⽬录:业务视图分类管理、技术元数据管理
资产地图:系统/域层次关联配置、数据仓库分层绑定、数据模型⾎缘绑定
参考设计:
(五) 数据质量管理平台:解决数据质量改进问题
定位与⽬标:
针对数据进⾏稽核来确保数据的质量,覆盖及时性、完整性、准确性、⼀致性、唯⼀性及合理性等,及各系统之间数据的统⼀性。建⽴标准化度量系统,⽅便系统性改进数据质量问题。
核⼼模块列表:
数据源、数据对象、元数据分类管理;数据质量检测模型、⽅案、规则管理;数据质检任务调度、报告、流程管理。
主要功能列表:
数据源管理:元数据⽬录管理、数据对象管理
质量模型管理:模型分类管理、质检⽅案绑定
质检⽅案管理:⽅案基础配置、质检对象选择、质检规则配置与⾃定义、调度策略与告警配置
质检调度与报告管理:任务调度⽇志、质检报告管理、质检改进流程
配置管理:集配置、质检资源配置、质量模板配置
参考设计:
(六) 数据标准管理平台:解决数据管理规范问题
定位与⽬标:
数据标准是⼤数据治理⽣态中重要的⼀环,与数据过程管理、元数据管理、质量管理等模块进⾏协作,组成完整⼯具集,促进公司、组织内数据处理、交换相关流程、功能的标准化,有效提⾼数仓平台建设和数据管理的质量和效率,加速数据流转,从⽽促进业务创新。
核⼼模块列表:
数据元、代码集、标准术语、指标标准管理;数据标准分类检索、实施流程管理;数仓建模管理 (逻辑模型设计与物化)。
主要功能列表:
数据元管理:属性描述符、属性约束
数据标准分类:国家标准、⾏业标准、企业标准(数据主题、业务渠道)
数据标准存储与检索:全⽂检索、⽂件存储、数据库存储
数据标准实施流程管理:标准规划、标准制定、标准发布、标准执⾏、标准维护
数仓建模⽀撑:基于标准导⼊、逻辑模型设计、逻辑模型物化、分层分域约束与映射、模型稽核
参考设计:
(七) 数据集治理平台:解决集洞察优化问题
定位与⽬标:
基于Hadoop集底层组件运⾏机制和⼤数据开发运维等组织活动进⾏多维交叉洞察,以降本增效为中⼼,向下保障⼤规模Hadoop集算⼒,向上指导数据治理动作实施和业务连续性。
核⼼模块列表:
集治理数据采集;集治理分析引擎;集治理平台应⽤。
主要功能列表:
资源画像:集整体CPU/内存等资源使⽤;分队列CPU/内存等资源使⽤
存储画像:集⽂件数、空⽂件数、⽂件夹数、⽂件数增量;10M/50M⼩⽂件账户分布;数据库、表、分区⼩⽂件以及增长
作业画像:作业耗资源TOP、作业IO TOP、作业耗时TOP、作业数据倾斜TOP
数据⾎缘画像:全链路分析、前溯分析、后溯分析、故障影响评估
元数据画像:垃圾表洞察报告、垃圾分区洞察报告
元数据画像:垃圾表洞察报告、垃圾分区洞察报告
RPC调⽤画像:RPC账户、业务分析;RPC分时统计、RPC下钻作业分析
冗余计算画像:计算⽬录被扫描次数、⽬录管理作业、冗余计算资源评估
⽤户⾏为告警:库、表变更实时告警;库、表⽬录变更实时告警
参考设计:
(⼋) 数据服务平台:解决数据能⼒开放共享问题
定位与⽬标:
以⽣产环境的运营⽀撑和应⽤开发为主要IT诉求,构建IaaS、PaaS、SaaS三层私有云体系,提供可复⽤、可隔离的存储计算资源、数据资源、开发组件资源,同时保证多租户安全隔离,落地安全多⽅计算技术,⽅便数据资源开放共享和数据资产运营。
核⼼模块列表:
云计算资源池;数据能⼒商店;多租户控制台;安全多⽅计算。
投票箱制作
主要功能列表:
云计算资源池:Hadoop平台、容器云平台、虚拟化平台
数据能⼒商店:数据产品套餐、数据API服务、数据推送服务、数据总线服务
多租户控制台:⼯单管理、订单列表、能⼒套餐、系统总览
计费管理:基础信息维护、商品报价维护、租户费⽤报表
可视化分析建模:可视化建模、BI报表构建
数据管控套件:元数据管理、数据集成平台、数据质量管理、数据模型与⽣命周期管理
安全多⽅计算:计算基础能⼒、编译及计算功能、数据流通管理
参考设计:
高精度室内定位液力离合器六
数据资产管理平台的研发运营实践
(⼀) 整体研发与运营:始终坚持合适的才是最好的
Q:在数据资产管理平台的整体研发实践⽅⾯,有什么⼼得可以分享吗?
A:OK,整体来看,我这边主要有四点:
第⼀,研发策略⽅⾯:要处理好完全⾃主研发和部分模块外采之间的⽭盾。