數(shù)據(jù)倉庫的特點有哪些?數(shù)據(jù)倉庫是為企業(yè)的決策制定過程,提供數(shù)據(jù)支持的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持目的而創(chuàng)建。數(shù)據(jù)倉庫是面向主題的、集成的、非易失的和時變的數(shù)據(jù)集合,用以支持管理決策。
面向主題
即處于數(shù)據(jù)倉庫中的數(shù)據(jù)是按照特定的主題組織而成的,這里的主題不是具體的而是一個抽象的概念,常指企業(yè)或個人在使用數(shù)據(jù)倉庫著重關(guān)注的方面。傳統(tǒng)數(shù)據(jù)庫中,最大的特點是面向應(yīng)用進行數(shù)據(jù)的組織,各個業(yè)務(wù)系統(tǒng)可能是相互分離的。而數(shù)據(jù)倉庫則是面向主題的。主題是一個抽象的概念,是較高層次上企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。在邏輯意義上,它是對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。
集成性
數(shù)據(jù)集成,指在數(shù)據(jù)倉庫中的數(shù)據(jù)信息并不是在各業(yè)務(wù)系統(tǒng)中簡單、隨機抽取的,由于數(shù)據(jù)倉庫間的獨立性,因此需要消除源數(shù)據(jù)中的異值。通過對分散、獨立、異構(gòu)的數(shù)據(jù)庫數(shù)據(jù)進行抽取、清理、轉(zhuǎn)換和匯總便得到了數(shù)據(jù)倉庫的數(shù)據(jù),這樣保證了數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)關(guān)于整個企業(yè)的一致性。
數(shù)據(jù)倉庫中的綜合數(shù)據(jù)不能從原有的數(shù)據(jù)庫系統(tǒng)直接得到。因此在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必然要經(jīng)過統(tǒng)一與綜合,這一步是數(shù)據(jù)倉庫建設(shè)中最關(guān)鍵、最復(fù)雜的一步,所要完成的工作有:1.要統(tǒng)一源數(shù)據(jù)中所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長不一致,等等。2.進行數(shù)據(jù)綜合和計算。數(shù)據(jù)倉庫中的數(shù)據(jù)綜合工作可以在從原有數(shù)據(jù)庫抽取數(shù)據(jù)時生成,但許多是在數(shù)據(jù)倉庫內(nèi)部生成的,即進入數(shù)據(jù)倉庫以后進行綜合生成的。
穩(wěn)定性
業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)總是處于不斷變化的狀態(tài),即數(shù)據(jù)為最新的狀態(tài)。相對于業(yè)務(wù)系統(tǒng)的不斷變化,數(shù)據(jù)倉庫具有穩(wěn)定性,是指數(shù)據(jù)在進入數(shù)據(jù)倉庫后,數(shù)據(jù)一般用于查詢,很少會對數(shù)據(jù)進行修改,常見的操作也只是進行定期的加載和刷新。
時變性
數(shù)據(jù)倉庫包含各種粒度的歷史數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)可能與某個特定日期、星期、月份、季度或者年份有關(guān)。數(shù)據(jù)倉庫的目的是通過分析企業(yè)過去一段時間業(yè)務(wù)的經(jīng)營狀況,挖掘其中隱藏的模式。雖然數(shù)據(jù)倉庫的用戶不能修改數(shù)據(jù),但并不是說數(shù)據(jù)倉庫的數(shù)據(jù)是永遠不變的。分析的結(jié)果只能反映過去的情況,當(dāng)業(yè)務(wù)變化后,挖掘出的模式會失去時效性。因此數(shù)據(jù)倉庫的數(shù)據(jù)需要更新,以適應(yīng)決策的需要。從這個角度講,數(shù)據(jù)倉庫建設(shè)是一個項目,更是一個過程。
數(shù)據(jù)倉庫的數(shù)據(jù)隨時間的變化表現(xiàn)在以下幾個方面:
數(shù)據(jù)倉庫的數(shù)據(jù)時限一般要遠遠長于操作型數(shù)據(jù)的數(shù)據(jù)時限。
操作型系統(tǒng)存儲的是當(dāng)前數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是歷史數(shù)據(jù)。
數(shù)據(jù)倉庫中的數(shù)據(jù)是按照時間順序追加的,它們都帶有時間屬性。
總結(jié)數(shù)據(jù)倉庫特點
數(shù)據(jù)倉庫是面向主題的,操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。
數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進行集成,才能進入數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù)。
數(shù)據(jù)倉庫是隨時間而變化的,穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時間改變。
匯總的。操作性數(shù)據(jù)映射成決策可用的格式。
大容量。時間序列數(shù)據(jù)集合通常都非常大。
非規(guī)范化的。Dw 數(shù)據(jù)經(jīng)常是冗余的。
元數(shù)據(jù)。將描述數(shù)據(jù)的數(shù)據(jù)保存起來。
數(shù)據(jù)源。數(shù)據(jù)來自內(nèi)部的和外部的非集成操作系統(tǒng)。
數(shù)據(jù)倉庫是單個數(shù)據(jù)存儲,用于支持分析性報告、決策等為目的而建立的。其可以提供各種類型數(shù)據(jù),支持企業(yè)進行各種級別決策的制定,還能為有業(yè)務(wù)智能需求的企業(yè)提供有關(guān)數(shù)據(jù)監(jiān)看、業(yè)務(wù)流程改進等支持。由此可見數(shù)據(jù)倉庫對整個數(shù)據(jù)挖掘過程的重要性