华为内里材料!揭秘华为数据湖:3大特点、6个标准、入湖流程
导读:数据湖:完成企业数据的“逻辑会聚”。
作者:华为公司数据办理部
泉源:华章科技
01 华为数据湖的3个特点
华为数据湖(如图5-2所示)是逻辑上对表里部的布局化、非布局化的原始数据的逻辑会聚。数据入湖要服从6项入湖标准,基于6项标准确保入湖的质量,同时面向不同的消耗场景提供两种入湖办法,满意数据消耗的要求。
▲图5-2 数据湖总体视图
颠末近两年的数据湖建立,现在以前完成1.2万个逻辑数据实体、28万个业务属性的入湖,同时数据入湖在华为公司也构成了标准的流程标准,每个数据资产都要入湖成为数据事情的紧张标准。
华为数据湖主要有以下几个特点。
1. 逻辑一致
华为数据湖不是一个单一的物理存储,而是依据数据典范、业务地区等由多个不同的物理存储构成,并经过一致的元数据语义层举行界说、拉通和办理。
2. 典范多样
数据湖存放一切不同典范的数据,包含企业内里IT体系产生的布局化数据、业务买卖和内里办理的非布局化的文本数据、公司内里园区种种传感器检测到的装备运转数据,以及外部的媒体数据等。
3. 原始纪录
华为数据湖是对原始数据的会聚,不合错误数据做任何的转换、洗濯、加工等处理,保存数据最原始特性,为数据的加工和消耗提供丰厚的约莫。
02 数据入湖的6个标准
数据入湖是数据消耗的基本,必要严厉满意入湖的6项标准,包含明白数据Owner、公布数据标准、界说数据密级、明白数据源、数据质量评价、元数据注册。经过这6项标准确保入湖的数据都有明白的业务责任人,各项数据都可了解,同时都能在相应的信息宁静保证下举行消耗。
1. 明白数据Owner
数据Owner由数据产生对应的流程Owner承继,是所辖数据端到端办理的责任人,卖力对入湖的数据界说数据标准和密级,承接数据消耗中的数据质量成绩,并订定命据办理事情路标,持续提升数据质量。
2. 公布数据标准
入湖数据要有相应的业务数据标准。业务数据标准形貌公司层面需协同恪守的“属性层”数据的涵义和业务端正,是公司层面临某个数据的协同了解,这些了解一旦明白并公布,就必要作为标准在企业内被协同恪守。数据标准的信息如表5-1所示。
表5-1 数据标准分析
3. 认证数据源
经过认证数据源,可以确保数据从准确的数据源头入湖。认证数据源应依照公司数据源办理的要求,寻常数据源是指业务上初次正式公布某项数据的使用体系,并颠末数据办理专业构造认证。
认证过的数据源作为唯一数据源头被数据湖调用。当承载数据源的使用体系显现兼并、分拆、下线情况时,应及时对数据源举行没效处理,并启动新数据源认证。
4. 界说数据密级
界说数据密级是数据入湖的必要条件,为了确保数据湖中的数据能富裕地共享,同时又不产生信息宁静成绩,入湖的数据必必要定密。数据定密的责任主体是数据Owner,数据管家有责任审视入湖数据密级的完备性,并推进、和谐数据定密事情。
数据定级密度在属性层级,依据资产的紧张水平,界说不同品级。不同密级的数据有相应的数据消耗要求,为了促进公司数据的消耗,数据湖中的数据有相应的降密机制,到降密期或满意降密条件的数据应及时降密,并改造密级信息。
5. 数据质量评价
数据质量是数据消耗后果的确保,数据入湖不必要对数据举行洗濯,但必要对数据质量举行评价,让数据的消耗职员了解数据的质量情况,并了解消耗该数据的质量风险。同时数据Owner和数据管家可以依据数据质量评价的情况,推进源头数据质量的提升,满意数据质量的消耗要求。
6. 元数据注册
元数据注册是指将入湖数据的业务元数据和武艺元数据举行关联,包含逻辑实体与物理表的对应干系,以及业务属性和表字段的对应干系。经过联接业务元数据和武艺元数据的干系,可以支持数据消耗职员经过业务语义快速地搜刮到数据湖中的数据,低落数据湖中数据消耗的门槛,能让更多的业务分析职员了解和消耗数据。
03 数据入湖办法
数据入湖依照华为信息架构,以逻辑数据实体为粒度入湖,逻辑数据实体在初次入湖时应该思索信息的完备性。准则上,一个逻辑数据实体的一切属性应该一次性进湖,制止一个逻辑实体多次入湖,增到场湖事情量。
数据入湖的办法主要有物理入湖和假造入湖两种,依据数据消耗的场景和需求,一个逻辑实体可以有不同的入湖办法。两种入湖办法互相协同,协同满意数据联接和用户数据消耗的需求,数据管家有责任依据消耗场景的不同,提供相应办法的入湖数据。
- 物理入湖是指将原始数据复制到数据湖中,包含批量处理、数据复制同步、消息和流集成等办法。
- 假造入湖是指原始数据不在数据湖中举行物理存储,而是经过创建对应假造表的集成办法完成入湖,及时性强,寻常面向小数据量使用,大批量的数据利用约莫会影响源体系。
数据入湖有以下5种主要武艺伎俩。
1. 批量集成(Bulk/Batch Data Movement)
关于必要举行繁复数据算账和转换且数据量较大的场景,批量集成是首选。通常,调治作业每小时或天天实行,主要包含ETL、ELT和FTP等东西。批量集成不合适低数据延长和高机动性的场景。
2. 数据复制同步(Data Replication/Data Synchronization)
实用于必要高可用性和对数据源影响小的场景。使用基于日志的CDC捕捉数据变动,及时获取数据。数据复制同步不合适处理种种数据布局以及必要算账和转换繁复数据的场景。
3. 消息集成(Message-Oriented Movement of Data)
通常经过API捕捉或提取数据,实用于处理不同数据布局以及必要高可靠性和繁复转换的场景。尤其关于很多遗留体系、ERP和SaaS来说,消息集成是唯一的选择。消息集成不合适处理多量数据的场景。
4. 流集成(Stream Data Integration)
主要眷注流数据的收罗和处理,满意数据及时集成需求,处理每秒数万乃至数十万个事变流,偶尔乃至数以百万计的事变流。流集成不合适必要繁复数据算账和转换的场景。
5. 数据假造化(Data Virtualization)
关于必要低数据延长、高机动性和暂且形式(不休厘革下的形式)的消耗场景,数据假造化是一个很好的选择。在数据假造化的基本上,经过共享数据拜候层,分散数据源和数据湖,变小数据源变动带来的影响,同时支持数据及时消耗。数据假造化不合适必要处理多量数据的场景。
5种数据入湖办法的比力可以参考表5-2。
表5-2 数据入湖办法比力
可以经过数据湖主动从数据源PULL(拉)的办法入湖,也可以经过数据源自意向数据湖PUSH(推)的办法入湖。数据复制同步、数据假造化以及传统ETL批量集成都属于数据湖主动拉的办法;流集成、消息集成属于数据源主动推送的办法(如表5-3所示)。在特定的批量集成场景下,数据会以CSV、XML等格式,经过FTP推送给数据湖。
表5-3 PULL(拉)