【大数据】数据管护技术及应用(二)
- 管理员
-
33 次阅读
-
0 次下载
-
2020-11-11 11:54:50
文档简介:
数据管护技术及应用(二)2020-03-042.4元数据管理现有对元数据管理的研究大多以设计和开发元数据管理系统的形式实现对元数据的管理。目前设计元数据管理系统主要有两类方法[36]。第一类方法为存储元数据分析[37-39],该类方法把元数据视为整个数据的一个全局组件,每一个查询或分析都要通过该组件来执行。第二类方法把数据湖分解为多个数据池,而每一个数据池都是某一特定类型的数据[40]。在这种方法里,数据的存储、元数据管理、查询对于每类数据都是不同的,而这样的方法有助于确保数据的特殊性。在数据湖应用中,原始数据在没有被查询前,都是以最原始的状态存储的,并且没有任何明确的模式,这被称为“schema-on-read”或延时绑定[41-42]。但是,随着海量数据以飞快的速度涌入数据湖,数据显式模式的缺乏会迅速地导致数据湖变为实用性较低的数据沼泽。因此元数据管理成为数据湖的重要组成部分。另外,一个有效的元数据管理系统也是数据能够被有效地检索、查询和分析的重要保证。元数据可以分为数据集内部和数据集间的元数据等类型[43]。其中,数据集内部的元数据构成了各个数据集的概述轮廓,这些元数据包括描述
评论
发表评论