元素数据管理架构视图
如今,大多数组织都意识到了积极规范的数据管理的必要性。他们将数据视为资产,并通过管理和结构标准和控制来管理数据。但问题是,相反,大多数组织对元数据管理的态度是被动和随意的。
数据团队通常将数据目录视为元数据需求的解决方案。从结构上看,很明显,数据目录只是解决方案的一部分,往往是问题的一部分。组织管理数据作为资产,但将元数据视为数据管理过程的副产物。这种“数据管理,元数据产生”的方法充满了风险。随着数据管理的复杂性越来越高,元数据管理已经成为一门不可或缺的学科。
在这篇文章中,我把这个结构视图作为一种思维工具,即开始了解元数据管理的范围和复杂性的方法。它不能解决所有元数据管理的挑战。这是一个开始,而不是结束,也是一个开始寻找元数据挑战解决方案的工具,如荒岛、差异、自助服务困难和数据目录利用率低。
一 宏观视角的元数据管理架构
让我们从元数据管理架构的整体角度出发。(图1。)从宏观角度来看,元数据管理包括三个主题:
元素主题及来源指元数据描述的事物(主题)和元数据的衍生或来源(来源)。这些包括组织协调的数据清单和管理数据的过程。
生命周期的元数据这是元数据从一开始,经过每一个处理和管理行为阶段,直到消费和使用为止所遵循的路径。
元数据管理流程及商品它是管理元数据实施的目标和活动,以及这些任务和活动的成果。
图1.元数据管理架构宏观视图

二 对元数据管理架构的深入探讨
下面让我们仔细看一下元数据管理架构的每一个部件。
1.元数据主题及来源
如上所述,元数据的主题和来源包括管理的数据清单和管理这些数据的过程。典型的组织数据清单非常庞大和多样化。(如图2所示。)它不仅包括用于业务运营的运营数据,还包括用于衡量和管理业务的处理数据。运营数据和处理数据由内部生成的企业数据和从合作伙伴和数据提供商那里获得的外部数据组成。
图表2.数据清单
数据清单显然是元数据的主题。它包括元数据描述的大部分内容——名称、含义、规则和约束。重要的是要意识到清单也是元数据的来源。AI/ML算法可以用来从列表中获取元数据,包括语义推理、隐私和安全敏感数据的标记、显示数据联系的知识地图和其他类型的自动元数据发现。
元数据的主题和来源还包括数据管理过程,用于管理数据库存。(如图3所示。)这些过程包括(但不限于)操作系统、数据仓库、数据湖管理、主数据管理、数据质量管理和数据可观察的过程。
图表3.数据管理过程

数据管理过程不仅是元数据的主体,也是元数据的来源。理想情况下,核心信息系统(运营、数据仓库、数据湖和MDM)建立在元数据基础(如数据模型和数据定义)之上,旨在生成描述如何创建、更新和删除数据的元数据。数据质量管理和数据可观测系统将生成额外的元数据,具有相关的数据特征和数据处理。
元数据的生命周期
元数据的生命周期是元数据从开始到使用所遵循的路径——元数据采集、元数据存储、元数据访问、元数据消费等活动。
元数据采集包括从源头和主题捕捉元数据的所有活动。(如图4所示。)这些活动包括元数据的建立、元数据的发现和元数据的获取。
图表4.元数据采集
当流程创建新的元数据时,元数据就会被创建。这些可能是计算机过程,如数据继承和描述为元数据的数据管道执行,或者是人工过程,如系统设计中的数据建模,数据仓库设计中的源/目标投射,以及用于描述和标记数据的数据处理过程。任何生成描述数据清单或数据管理过程的任务或活动都是元数据的创建者。
在智能化过程中,通过查看数据找到元数据,就会发现元数据。发现可以通过AI/ML代理的方式进行,这些代理人会抓取存储的数据来提取元数据——例如发现数据的语义。这个过程也叫元数据扫描。发现也可能发生在数据处理的一部分——例如,智能数据湖的摄入量会自动对带入数据湖的数据进行分类,并在摄入时基于AI/ML自动标记数据。数据探索和数据质量分析师进行数据分析等活动的一部分也可能发生在数据科学家手动发现中。
元数据收集包括在元数据难以建立或发现时收集元数据的过程。采集是从人工和数字来源获取元数据的工作。这包括手动记录元数据(如策展人注释)和众包元数据,以捕捉SME知识和数据消费者体验。采集也可以通过元数据导入过程来获取由不易与企业元数据存储库或数据目录相互操作的工具和流程建立的元数据。
元数据存储包括存储元数据的技术存储元数据的位置。(如图5所示。)这些通常包括元数据存储和文件或数据库管理系统(包括电子表格-常见但不理想的方法),包括数据目录、元数据存储库、特定于工具的元数据存储。
图表5.元数据存储
元数据存储是一个存在许多元数据管理问题的行业。。请注意,上面列出的一切都以复数的形式表示-目录、存储库、元数据存储、文件系统、数据库管理系统。这个问题就是元数据孤岛,冗余,不一致,混乱。采用现代数据管理技术,多元数据存储可能是不可避免的。这个问题是由嵌入供应商专有工具的元数据、内置在数据准备和分析工具中的数据目录以及定制的元数据解决方案引起的。就结构而言,我们需要考虑元数据的互操作性和指定的元数据记录系统概念,例如公司正式认可的数据目录。
元数据访问为人员和过程提供了搜索和使用元数据所需的功能。浏览提供数据目录、元数据连接器、元数据API和元数据统计。连接器和API可以由元数据管理工具提供,也可以通过内部开发简化浏览和嵌入元数据的密钥管理。
图表6.元数据访问
当元数据以不同的形式存储在元数据孤岛时,元数据访问会变得更加复杂(搜索和浏览元数据的问题)。在结构方面,您可能需要考虑元数据注册表或元数据门户等解决方案来部分缓解这些困难。
元数据消费包括每个人、软件和计算机处理使用元数据的各种方法。(如图7所示。)元数据可以主动使用——即流程浏览元数据,并使用它做出运行决策。它也可以被动使用——人类浏览来了解数据,并做出如何使用数据的决定。
图表7.元数据消耗
搜索和理解信息是数据分析师和自助数据客户的常见用例。管理数据的生命周期是数据管理员、数据管理者和自动化工具(如数据湖管理和数据管理工具)的核心。报告、分析和AI/ML都依赖于元数据——无论是人工设计和开发过程,还是自动操作和执行过程。
3.元数据管理流程及商品
元数据管理实践和产品是管理元数据实施的目标和活动,以及这些任务和活动的有形结果。(如图8所示。)商品是元数据清单中的东西。实践是管理元数据活动的过程和执行任务。
图8.元数据管理实践及商品
元数据清单包括业务元数据,用于描述语义和业务意义,将数据与工作流程联系起来,并描述建立数据约束的业务规则。技术元数据从技术角度描述数据,包括数据库模式、数据类型、数据类型、平台和存储位置以及数据实现的其他技术。对数据操作过程及其结果进行操作元数据描述-例如,数据仓库中的数据转换和数据在数据管道移动时的数据继承。关于社会元数据描述数据的人性化,回答以下问题:
谁是数据管理员?
谁是频繁的数据客户?
尽管有些人可能会认为社会元数据是琐碎或无关紧要的,但是在努力提高数据目录的利用率时,建立人际关系是非常重要的。
三 元素数据管理架构视图
整合上面讨论的所有元数据管理部分,建立图9所示的元数据管理架构。
图9.元数据管理架构

为了方便阅读,最好参考每个部分的独立图表。该图的目的是显示范围和复杂性(组件数量及其关系),这使得元数据管理成为一项具有挑战性的工作。
这种结构视图作为一种思维工具——一种开始了解元数据管理范围和复杂性的方法。它不能解决所有元数据管理的挑战。它是一个解决元数据孤岛、元数据差异、自助数据困难、数据目录选择不佳以及许多其他元数据挑战的解决方案工具,而不是结束。
本文来自微信微信官方账号“数据驱动智能”(ID:Data作者:晓晓,36氪经授权发布,_0101)。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




