国产成人精品日本亚洲麻豆-成人xx视频免费观看-欧美性天天影院欧美狂野-1024在线观看你懂的

公司新聞

一組圖詳解元數據、主數據與參考數據

2018-03-19 12:17

在數據資產管理領域,有著許多相似的概念和詞匯。譬如說“數據管理”和“數據治理”,像孿生兄弟一樣讓人糾結不已。上周,與一個朋友聊起元數據、主數據和參考數據的關系是什么。這個話題我們足足聊了二十分鐘。這三個概念我在一開始做數據管理相關工作的時候也糾結了挺久,于是我根據聊起來的內容稍稍總結了一下,就有了這篇文章,希望能給讀者減少些許疑惑。

1、假設場景

我們的假設場景先是這樣的,現在正在為中國地理協會設計一個中國地理信息系統(當然真實的地理信息系統不會是這樣,都說只是假設一下)。我現在正設計到“地市”這個對象。常說“千言萬語不及一圖”,這三者的關系咱們先上圖。

 

 

2、元數據--數據的數據

元數據(meta-data)是描述企業數據的相關數據,指在IT系統建設過程中所產生的有關數據定義,目標定義,轉換規則等相關的關鍵數據,包括對數據的業務、結構、定義、存儲、安全等各方面對數據的描述。

 

 

例如在假設場景中,我們設計了地市表的數據模型(如上圖紅色框里面表示),地市表這個實體的數據模型如何進行定義正是元數據所關心的范疇。

元數據可以說是企業的數據地圖,它直接反映了企業中有什么樣的數據,數據是如何存放的,例如,數據結構是什么樣子,數據與業務之間的關系是怎么樣,數據與數據之間的關系是怎么樣,數據有什么樣的安全需求,數據有什么樣的存儲需求。

針對元數據的管理,對于傳統企業數據而言是非常重要的一項管理挑戰。因為傳統企業技術和管理觀念上有所缺失,從而導致了許多問題。因此,我們在進行許多傳統企業數據治理或者數據管理項目,也就是元數據管理方面時,常常會先從數據模型梳理著手。

3、主數據--企業黃金數據記錄

主數據(main data)主要是指經實例化的企業關鍵數據。

 

 

還是回到我們的假設場景,我們在上面設計完成數據模型設計的“城市表”中填寫了相應的城市數據,例如,北京、上海、廣州、南寧等等。這些在城市表中填充的數據,正是組織中國地理協會的主數據,因為這些數據是中國地理協會這個組織的關鍵業務實體,它為組織的業務開展提供關聯環境,而且它可能在企業業務開展過程中被反復引用。針對這些核心關鍵數據,組織和企業無論從數據的質量、一致性、可用性、管理規范等方面都應該有著最嚴格的數據要求。

那么一般而言,以下涉及企業經營的人、財、物的數據最有可能納入企業主數據管理的范疇,例如

企業產品及其相關信息:包括企業相關產品、服務、版本、價格、標準操作等等

企業財務信息:包括業務、預算、利潤、合同、財務科目等等

企業相關利益相關者:如客戶、供應商、合作伙伴、競爭對手等

企業組織架構:如員工、部門等

可見,主數據就是企業被不同運營場合反復引用關鍵的狀態數據,它需要在企業范圍內保持高度一致。它可以隨著企業的經營活動而改變,例如,客戶的增加,組織架構的調整,產品下線等;但是,主數據的變化頻率應該是較低的。所以,企業運營過程產生過程數據,如生產過程產生各種如訂購記錄、消費記錄等,一般不會納入主數據的范圍。當然,在不同行業,不同企業對主數據有不同的看法和做法,正如我們與國內大型航空企業的實施相關數據項目時,也在為航班動態是不是主數據而糾結不已。

因此,有鑒于主數據對于企業的重要性,企業和組織需要對其主數據進行有效的管理:包括理解主數據應用需求,識別主數據來源及源頭,梳理主數據上下游關系,數據整合和發布,提升主數據的數據質量等。

4、參考數據--數據的字典

在本文引用的假設案例中,我們將會注意到剛才填寫的地市這類數據有些列,如省份、城市類型等。如果沒有缺少上下文的環境,我們是無法理解其具體含義,這時候我們往往引入參考數據(reference data)加以解釋和理解,如下圖紅色標注所示。

 

 

參考數據是增加數據可讀性、可維護性以及后續應用的重要數據。例如,你看到“性別”的這個字段,很可能是1代表男性、2代表女性。在許多企業中有這樣的約定俗成,而更多的參考數據可能記錄在開發人員和運營人員的大腦當中。但問題是一旦這些人離開,您系統里面的數據就成了一堆沒有注釋的天書。

大家可能覺得,這所謂參考數據不就是數據字典嗎?對,我們在很多系統里面都會有這樣和那樣的數據字典。但是正是由于這些數據字典局僅限于個別系統而沒有統一標準,從一個側面間接造就了大量的數據孤島。企業為了進行更有效率的數據整合、數據共享和數據分析應用,開始嘗試對參考數據進行企業或者部門層面的整合和管理,利用參考數據集記錄系統嘗試為范圍內的IT系統中的數據庫提供統一的參考數據。

5、小結

主數據則是真實的企業業務數據,是企業的關鍵業務數據。

參考數據則是對數據的解釋,針對一些數據范圍和取值的數據解釋,讓人們容易讀取相關的數據。

元數據是對數據的描述,用于描述企業數據的所有信息和數據,如結構、關系、安全需求等,除增加數據可讀性外,也是后續數據管理的基礎。

一般而言,企業中這三類數據與其它數據的數據量、質量需求,更新頻率、數據生命周期的關系大致如下圖:

 

 

作者簡介:

梁銘圖,DAMS架構師精英群專家,新炬網絡首席架構師。

擁有十年以上數據庫運維、數據分析、數據庫設計以及系統規劃建設經驗。

長期為國內電信運營商的大型IT系統進行系統軟件維、數據架構規劃、設計和實施以及大型IT系統數據建模工作,在數據架構管理以及數據資產管理方面有著深入的研究。