本文主要从元数据的定义、元数据的作用、元数据管理的现状、管理标准以及元数据管理功能等方面阐述了我对元数据()和元数据管理的认识和理解。
元数据管理 1.元数据的定义
按照传统的定义,元数据()是关于数据的数据。 在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库开发人员非常轻松地找到他们关心的数据; 元数据是描述数据仓库中数据的结构和建立方法的数据,根据用途的不同分为两类:技术元数据( )和业务元数据( )。
技术元数据
技术元数据是存储有关数据仓库系统的技术详细信息的数据。 它用于开发和管理数据仓库使用的数据。 主要包括以下信息:
业务元数据
业务元数据从业务角度描述数据仓库中的数据。 它在用户和实际系统之间提供了一个语义层,让不懂计算机技术的业务人员也能“理解”数据仓库中的数据。 业务元数据主要包括以下信息:以用户业务术语表达的数据模型、对象名称和属性名称; 访问数据和数据源的原则; 系统提供的分析方法,以及公式和报告信息。 具体包括以下信息:
2. 元数据的作用
数据仓库与其说是一个软件开发项目,不如说是一个系统集成项目,因为它的主要工作是集成所需的数据仓库工具,完成数据的提取、转换和加载、OLAP分析和数据挖掘等。如图如下图,其典型结构由运行环境层、数据仓库层和业务层组成。
其中,之一层(运行环境层)是指整个企业内部与业务相关的OLTP系统和一些外部数据源; 第二层为数据仓库层,将之一层的相关数据抽取到中心区域; 第三层是业务层,由各种工具组成,以完成业务数据的分析。 图中左边的部分是元数据管理,起到承上启下的作用,具体体现在以下几个方面:
1. 数据集成需要元数据
数据仓库的更大特点是集成性。 这一特点不仅体现在其所包含的数据上,还体现在数据仓库项目的实施过程中。 一方面,从各种数据源中提取的数据必须按照一定的模式存储在数据仓库中,而这些数据源与数据仓库中的数据之间的对应关系和转换规则必须存储在元数据知识中根据; 另一方面,在数据仓库项目实施过程中,直接搭建数据仓库往往是费时费力的。 因此,在实践中,人们可能会先按照统一的数据模型构建数据集市,然后基于各个数据集市构建数据仓库。 。 然而,当数据集市数量增多时,很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”现象的关键。 如果在构建数据集市的过程中注重元数据管理,那么融入数据仓库会更加顺利; 相反,如果在构建数据集市的过程中忽略了元数据管理,那么最终的集成过程将很难甚至无法实现。
2、元数据定义的语义层可以帮助用户理解数据仓库中的数据
最终用户不太可能像数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要一个“翻译器”,能够使他们清楚地理解数据仓库中数据的含义。 元数据可以实现业务模型和数据模型之间的映射,因此数据可以按照用户需要的方式进行“翻译”,从而帮助最终用户理解和使用数据。
3、元数据是保证数据质量的关键
数据仓库或数据集市建立后,用户在使用时常常会对数据产生怀疑。 这些质疑往往是因为底层数据对用户并不“透明”,用户自然会对结果产生怀疑。 借助元数据管理系统,最终用户可以轻松获取每个数据的来龙去脉以及数据提取和转换的规则,自然会对数据产生信心; 当然,他们也可以轻松发现数据中的质量问题。 。 国外一些学者甚至引入基于元数据模型的质量维度来从更高的角度解决这个问题。
4.元数据可以支持需求的变化
随着信息技术的发展和企业职能的变化,企业需求也在不断变化。 如何构建一个随着需求变化而平滑变化的软件系统是软件工程领域的一个重要问题。 传统的信息系统往往通过文档来适应需求的变化,但仅仅依靠文档是不够的。 一个成功的元数据管理系统可以有效地管理整个业务的工作流程、数据流和信息流,使系统独立于特定的开发人员,从而提高系统的可扩展性。
3. 元数据管理现状
从以上几节我们了解到,元数据几乎可以称为数据仓库甚至商业智能(BI)系统的“灵魂”。 正是因为元数据在整个数据仓库生命周期中发挥着重要的作用,所以各个厂家的数据仓库解决方案都提到了元数据的管理。 遗憾的是,对于元数据管理,各个解决方案都没有明确提出完整的管理模型; 它们仅提供特定本地元数据的管理。 目前市场上主要的元数据相关工具如下图所示:
如图所示,元数据相关的数据仓库工具大致可以分为四类:
1.数据提取工具:
将业务系统中的数据提取、转换、集成到数据仓库中,比如开源的ETL产品、ETI等。这些工具只提供技术元数据,对业务元数据的支持很少。
2.前端展示工具:
包括OLAP分析、报表和商业智能工具,如、BO、国内厂商帆软/等。 它们通过将关系表映射到与业务相关的事实和维度来支持多维业务视图,然后对数据仓库中的数据进行多维分析。 这些工具提供了业务元数据和技术元数据对应的语义层。
3、建模工具:
面向非技术人员的业务建模工具,提供与特定业务相关的更高级别的语义。 如CA的ERwin、Rose等。
4.元数据存储工具:
元数据通常存储在专用数据库中,这就像一个“黑匣子”。 外界无法知道这些工具使用和生成的元数据是如何存储的。 还有一类工具称为元数据存储库( ),它独立于其他工具,为元数据提供集中的存储空间。 这些工具包括 、 和 WCC 等。
5.元数据管理工具:
目前国内元数据管理工具主要有三类。 一是IBM、CA等公司提供的专门工具,比如IBM、CA收购的那些; 另一种是像DAG这样的开源产品,它不依赖于某种BI产品,而是第三方工具。 元数据管理工具; 第三,像普源、石竹这样的集成商也有自己的元数据管理工具:普源、新聚网络元数据管理系统、石竹等。
专门的元数据管理工具与自己的产品兼容较好,但一旦涉及到跨系统的管理就不能令人满意。 从国内实际应用来看,用得最多的是DAG这个工具。 目前在建的电信、金融领域的元数据管理项目基本都采用了该产品。
我在网上搜索了几乎所有元数据厂商:开源产品支持源码下载和试用,可以集成开发; 下载了公共元数据后,配置比较麻烦,至今没有调整; 其他公司的产品不提供下载和试用。
4. 元数据管理标准
没有规则,没有标准。 元数据管理困难的一个很重要的原因是缺乏统一的标准。 在这种情况下,元数据管理解决方案因公司而异。 近年来,随着元数据联盟MDC(Meta Data)的开放信息模型OIM(Open Model)和OMG组织的公共仓库模型CWM(Model)的逐步完善,以及MDC和MDC的合并, OMG组织中的数据仓库已经为各厂商提供了统一的标准,从而为元数据管理铺平了道路。
从元数据的发展历史不难看出,元数据的管理方式主要有两种:
对于相对简单的环境,基于通用元数据管理标准建立集中式元数据知识库。
对于更复杂的环境,元数据管理系统的各个部分分别建立,形成分布式元数据知识库。 然后,通过建立标准的元数据交换格式,实现元数据的集成管理。
目前,OMG的CWM()标准已成为元数据管理界的统一标准:
OMG是一个拥有500多个成员的国际标准化组织,著名的CORBA标准就来自这个组织。 通用仓库元模型的主要目的是帮助不同的数据仓库工具、平台和元数据知识库在异构环境中交换元数据。 2001年3月,OMG颁布了CWM 1.0标准。 CWM模型包括元数据存储和元数据交换,并且基于以下三个行业标准:
OMG元数据知识库架构如下图所示。
CWM 开发了一套语法和语义规范,用于在数据仓库和商业智能 (BI) 工具之间共享元数据。 主要包括以下四个方面的规范:
五、元数据管理功能 1、数据地图
数据地图展示是将数据系统的各种数据实体和数据处理过程元数据以拓扑图的形式分层图形展示,通过不同层次的图形显示粒度控制,以满足开发、运维或维护等方面的不同需求。商业。 应用场景的图查询和辅助分析需求。
2. 元数据分析
血统分析
沿袭分析(也称血统分析)是指从某个实体出发,将其处理追溯到数据系统的数据源接口。 对于不同类型的实体,可能涉及不同类型的转换过程。 例如:对于底层仓库实体,涉及到ETL处理流程; 而对于仓库汇总表,可能同时涉及ETL处理流程和仓库汇总处理流程; 对于指标来说元模型扩展,除了上述的处理过程之外,还涉及到指标生成的处理过程。 数据源接口实体由源系统提供,作为数据系统的数据输入。 其他数据实体已经经历了一种或多种不同类型的处理。 谱系分析就提供了这样的功能,可以让用户根据需求了解不同的处理流程,每个处理流程具体做了什么,需要什么样的输入,产生什么样的输出。
影响分析
影响分析是指从某个实体出发,寻找处理实体或依赖于该实体的其他实体。 如果需要,您可以使用递归方法来查找所有依赖的流程实体或其他实体。 该功能支持在某些实体发生变化或需要修改时评估实体影响范围。
实体关联分析
实体关联分析是从与某个实体关联的其他实体及其参与的处理过程的角度来看待特定数据的使用情况,形成一个实体和所涉及的过程的网络,从而进一步了解该实体的重要性。 该功能可用于支持需求变更影响评估的应用。
实体差异分析
实体差异分析是检查元数据的不同实体,并以图形和表格的形式显示它们之间的差异,包括名称、属性、数据沿袭和对系统其他部分的影响的差异。 数据系统也存在很多类似的差异。 实体。 这些实体(例如数据表)可能仅在名称或属性上存在细微差别。 有些属性甚至可能具有相同的名称,但在不同的应用程序中使用。 由于各种原因,这些微小的差异直接影响统计结果,数据系统需要对这些差异有清晰的认识。该功能有助于进一步统一统计口径,评估近似实体之间的差异。
指标一致性分析
指标一致性分析是指采用图形化的方法,分析比较两个指标的数据流图是否一致,从而了解指标计算过程是否一致。 该功能是指标谱系分析的具体应用。 指标一致性分析可以帮助用户清楚地了解待比较的两个指标的业务分析数据流图各阶段涉及的数据对象和转换关系是否一致,帮助用户更好地了解指标的来龙去脉,清楚了解分布。 不同部门同名指标之间存在差异,从而增加用户对指标值的信任度。
3.协助应用优化
元数据提供了对数据系统的数据、数据处理过程以及数据之间关系的准确描述。 利用沿袭分析、影响分析、实体关联分析等元数据分析功能,可以识别与系统应用相关的技术资源,并结合应用的生命周期管理流程,辅助数据系统的应用优化。
4.辅助安全管理
企业数据平台存储的数据以及提供的各种分析应用涉及公司运营中的各种敏感信息。 因此,在数据系统建设过程中,必须采取完善的安全管理机制和措施,保证系统的数据安全。
数据系统安全管理模块负责数据系统中各环节的数据敏感度、客户隐私信息和审计日志记录的管理,对数据系统的数据访问和功能使用进行有效监控。 为了实现数据系统对敏感数据和客户隐私信息的访问控制并进一步细化权限,安全管理模块应基于元数据。 元数据管理模块应提供敏感数据定义和客户隐私信息定义以辅助安全管理模块。 完成相关安全控制作业。
5. 基于元数据的开发管理
数据系统项目开发的主要环节包括:需求分析、设计、开发、测试和上线。 开发管理应用可以提供相应的功能来管理和支持上述环节的工作流程、相关资源、规则约束、输入输出信息等。
本文主要从元数据的定义、作用、元数据管理现状、管理标准以及元数据管理功能等方面阐述了我对元数据()和元数据管理的认识和理解。 朋友们如果有什么建议或者补充,请留言或者私信我。 一键连续三击!
未经允许不得转载! 作者:admin,转载或复制请以超链接形式并注明出处天心神途传奇手游发布网。
原文地址:《【收藏】关于元数据和元数据管理,这是我见过最全面的讲解了!》发布于:2024-04-02





还没有评论,来说两句吧...