技術(shù)
導(dǎo)讀:數(shù)據(jù)倉(cāng)庫(kù)為組織了解其歷史業(yè)務(wù)表現(xiàn)和推動(dòng)持續(xù)運(yùn)營(yíng)提供了一個(gè)接入窗口,為數(shù)據(jù)分析師和業(yè)務(wù)用戶提供了諸如客戶行為、業(yè)務(wù)趨勢(shì)、運(yùn)營(yíng)效率和銷售等方面的信息。盡管出現(xiàn)了基于Hadoop和其他一些大數(shù)據(jù)技術(shù)的數(shù)據(jù)湖這一概念,但隨著公司越來(lái)越需要從更多不同的源系統(tǒng)收集和分析業(yè)務(wù)數(shù)據(jù),這使得數(shù)據(jù)倉(cāng)庫(kù)仍然具有其實(shí)用價(jià)值,甚至比以前更加重要。
數(shù)據(jù)倉(cāng)庫(kù)為組織了解其歷史業(yè)務(wù)表現(xiàn)和推動(dòng)持續(xù)運(yùn)營(yíng)提供了一個(gè)接入窗口,為數(shù)據(jù)分析師和業(yè)務(wù)用戶提供了諸如客戶行為、業(yè)務(wù)趨勢(shì)、運(yùn)營(yíng)效率和銷售等方面的信息。
但作為數(shù)據(jù)管理體系結(jié)構(gòu)的一部分,在對(duì)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)進(jìn)行投資之前,首先還是要檢查您的組織是否真的需要一個(gè)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),以及通過(guò)實(shí)施部署,組織可以借此獲取哪些業(yè)務(wù)收益。相關(guān)的,您必須考慮不同的數(shù)據(jù)倉(cāng)庫(kù)部署情況——在企業(yè)范圍內(nèi)還是部門范圍內(nèi),在本地還是在云中。
您還需要確定,通常存儲(chǔ)在大數(shù)據(jù)系統(tǒng)中的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),是否會(huì)成為數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的組成部分,并確定是否將用于BI、企業(yè)報(bào)告和在線分析處理(OLAP)等應(yīng)用的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),與數(shù)據(jù)處理和大數(shù)據(jù)分析管理集成在一起。最后,您必須將您的數(shù)據(jù)倉(cāng)庫(kù)用例與最合適類型的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)相匹配。
為什么需要數(shù)據(jù)倉(cāng)庫(kù)?
數(shù)據(jù)倉(cāng)庫(kù)的一般概念非常簡(jiǎn)單:從支持業(yè)務(wù)流程的操作系統(tǒng)中定期提取數(shù)據(jù)副本,并將其加載到單獨(dú)的存儲(chǔ)庫(kù)中,在該存儲(chǔ)庫(kù)中,數(shù)據(jù)將被合并,然后可用于分析和報(bào)告。之后,業(yè)務(wù)用戶和分析師可以通過(guò)BI和分析工具、儀表板、入口和準(zhǔn)備好的報(bào)告來(lái)訪問(wèn)數(shù)據(jù)。
在下面這些情況下,數(shù)據(jù)倉(cāng)庫(kù)可能更容易發(fā)揮其價(jià)值:
公司在做出有效的商業(yè)活動(dòng)報(bào)告方面遇到了難題,因?yàn)樗枰臄?shù)據(jù)不容易獲得。
不同部門和用戶組會(huì)將業(yè)務(wù)數(shù)據(jù)復(fù)制到電子表格中以進(jìn)行分析,而這些電子表格并非總是相互一致的。
數(shù)據(jù)質(zhì)量和準(zhǔn)確性的不確定性,導(dǎo)致企業(yè)高管和業(yè)務(wù)經(jīng)理會(huì)質(zhì)疑報(bào)告的準(zhǔn)確性。
針對(duì)生產(chǎn)數(shù)據(jù)庫(kù)的BI報(bào)告會(huì)每晚延遲,或在月底進(jìn)行的交易數(shù)據(jù)處理,需要擴(kuò)展處理窗口。
在工作日對(duì)數(shù)據(jù)庫(kù)運(yùn)行臨時(shí)查詢會(huì)降低操作系統(tǒng)的速度,從而影響內(nèi)部用戶和客戶、供應(yīng)商以及其他外部用戶。
一個(gè)正確數(shù)據(jù)倉(cāng)庫(kù)實(shí)施策略可以幫助您的組織準(zhǔn)確地回答有關(guān)業(yè)務(wù)運(yùn)營(yíng)的問(wèn)題,如發(fā)生了什么、為什么。數(shù)據(jù)倉(cāng)庫(kù)可將來(lái)自不同位置和來(lái)源的數(shù)據(jù)組合到中央存儲(chǔ)庫(kù)中,從而提高數(shù)據(jù)的可訪問(wèn)性。當(dāng)數(shù)據(jù)移至數(shù)據(jù)倉(cāng)庫(kù)時(shí),通常還會(huì)對(duì)其進(jìn)行清理和轉(zhuǎn)換,以使其與分析一致,這將有助于提高查詢結(jié)果和報(bào)告中信息的質(zhì)量。
此外,一旦數(shù)據(jù)倉(cāng)庫(kù)部署完成并得到積極使用,由于BI、報(bào)告和分析活動(dòng)已從生產(chǎn)數(shù)據(jù)庫(kù)中移出,運(yùn)營(yíng)工作流程可能會(huì)變得更有效率。
數(shù)據(jù)倉(cāng)庫(kù)的部署
各個(gè)組織之間的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境可能會(huì)有很大差異。從體系結(jié)構(gòu)的角度來(lái)看,部署可以遵循多個(gè)路徑——如一個(gè)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW),一組較小的數(shù)據(jù)集市,或這兩種方法的組合。
EDW包含來(lái)自企業(yè)操作系統(tǒng)的所有相關(guān)數(shù)據(jù),并且可能包含一些從外部數(shù)據(jù)源收集的數(shù)據(jù)。它是用于BI和分析數(shù)據(jù)的單個(gè)統(tǒng)一存儲(chǔ)庫(kù),可以在所有部門和業(yè)務(wù)部門中使用。因此,建立EDW通常是一項(xiàng)艱巨的任務(wù),尤其是在大型企業(yè)中。
在EDW架構(gòu)中,組織還可以在其操作系統(tǒng)和企業(yè)數(shù)據(jù)倉(cāng)庫(kù)之間實(shí)施運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)(ODS)作為過(guò)渡步驟。將運(yùn)營(yíng)數(shù)據(jù)復(fù)制到ODS,然后提取并加載到數(shù)據(jù)倉(cāng)庫(kù)中。ODS可以用作尚未經(jīng)過(guò)轉(zhuǎn)換的、無(wú)法用于分析的數(shù)據(jù)的暫存區(qū),同時(shí)可以用于運(yùn)行近實(shí)時(shí)的查詢,這些查詢需要最新的業(yè)務(wù)運(yùn)營(yíng)的詳細(xì)相關(guān)數(shù)據(jù),而不是數(shù)據(jù)倉(cāng)庫(kù)中可用的數(shù)據(jù)。
數(shù)據(jù)集市是小型化的數(shù)據(jù)倉(cāng)庫(kù),專注于各個(gè)業(yè)務(wù)部門和職能領(lǐng)域。當(dāng)需要滿足部門對(duì)BI的特定需求時(shí),組織通常會(huì)選擇建立數(shù)據(jù)集市,并且優(yōu)先考慮報(bào)告功能。數(shù)據(jù)集市不需要涵蓋整個(gè)企業(yè)的龐大項(xiàng)目,而是更加集中,并且可以更快地提供業(yè)務(wù)收益。
因此,數(shù)據(jù)集市的方法使組織可以通過(guò)一次處理一個(gè)業(yè)務(wù)的各個(gè)部分——而不是構(gòu)建整體的EDW——以迭代方式開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)體系架構(gòu)。企業(yè)可以選擇部署一個(gè)或多個(gè)數(shù)據(jù)集市,具體取決于組織的規(guī)模和結(jié)構(gòu)。
然后,決定組合采用這兩種方法的組織,可以將不同的數(shù)據(jù)集市彼此集成以創(chuàng)建虛擬EDW,或以物理方式填充一個(gè)EDW。另一種方式是,以EDW開(kāi)始的組織可以將倉(cāng)庫(kù)數(shù)據(jù)的子集提供給后來(lái)建立的數(shù)據(jù)集市,以此分離業(yè)務(wù)運(yùn)營(yíng)。
本地與云數(shù)據(jù)倉(cāng)庫(kù)
每種可用的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)類型都有不同的部署選項(xiàng):數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)軟件,通?;陉P(guān)系數(shù)據(jù)庫(kù)技術(shù);專門的分析型DBMS;數(shù)據(jù)倉(cāng)庫(kù)設(shè)備將必要的硬件和DBMS軟件捆綁在一個(gè)包裝中;云數(shù)據(jù)倉(cāng)庫(kù)。
將云用于數(shù)據(jù)倉(cāng)庫(kù)已成為更可行的選擇。有些供應(yīng)商已經(jīng)推出了特定于云的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),而且有些最初設(shè)定為本地安裝的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù),其供應(yīng)商現(xiàn)在也提供了基于云的版本。此類產(chǎn)品包括組織自己在云中運(yùn)行的常規(guī)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),以及供應(yīng)商為用戶部署和管理的數(shù)據(jù)倉(cāng)庫(kù)即服務(wù)(DWaaS)技術(shù)。
與其他類型的云系統(tǒng)一樣,與本地環(huán)境相比,云數(shù)據(jù)倉(cāng)庫(kù)可以減少部署時(shí)間,并提供更輕松的可伸縮性和更大的靈活性。還可以節(jié)省一定的成本——但這并不能保證,IT經(jīng)理需要密切關(guān)注云中數(shù)據(jù)倉(cāng)庫(kù)的使用,以確保成本最終不會(huì)高于預(yù)期。同樣,數(shù)據(jù)安全和隱私問(wèn)題可能是決定是否在本地部署數(shù)據(jù)倉(cāng)庫(kù)的考慮因素。
數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)
在Hadoop和其他大數(shù)據(jù)技術(shù)首次出現(xiàn)之后,關(guān)于它們是否會(huì)替代數(shù)據(jù)倉(cāng)庫(kù),市場(chǎng)上充滿了各種聲音。但是在大多數(shù)組織中,數(shù)據(jù)倉(cāng)庫(kù)并沒(méi)有消失。相反,它們和大數(shù)據(jù)系統(tǒng)通常并存,每種系統(tǒng)都支持不同類型的分析用例。
數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)通?;陉P(guān)系DBMS,并包含源自組織的運(yùn)營(yíng)和交易處理系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)主要由希望運(yùn)行基于SQL的、基本BI查詢的業(yè)務(wù)分析人員和執(zhí)行人員,以及希望創(chuàng)建儀表板和報(bào)告以向業(yè)務(wù)用戶提供分析信息的BI開(kāi)發(fā)人員訪問(wèn)。
另一方面,大數(shù)據(jù)系統(tǒng)通?;诜顷P(guān)系技術(shù),例如Hadoop、Spark和NoSQL數(shù)據(jù)庫(kù)。它們包含的數(shù)據(jù)可以是結(jié)構(gòu)化、非結(jié)構(gòu)化或半結(jié)構(gòu)化的,并且可以源自所有類型的內(nèi)部系統(tǒng),以及社交網(wǎng)絡(luò)和其他外部數(shù)據(jù)源。大數(shù)據(jù)分析旨在發(fā)現(xiàn)模式、關(guān)聯(lián)和類似的見(jiàn)解——例如,根據(jù)過(guò)去的活動(dòng)預(yù)測(cè)未來(lái)趨勢(shì)和客戶行為。通常是由數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)人員使用Python、R和Scala等語(yǔ)言開(kāi)發(fā)的復(fù)雜分析模型完成的。
大數(shù)據(jù)技術(shù)還支持?jǐn)?shù)據(jù)湖的概念,數(shù)據(jù)湖是來(lái)自各種來(lái)源的原始數(shù)據(jù)的存儲(chǔ)庫(kù),可以按原樣存儲(chǔ)這些數(shù)據(jù),然后根據(jù)需要對(duì)其進(jìn)行過(guò)濾和分析準(zhǔn)備。
最后,大數(shù)據(jù)系統(tǒng)并不能直接替代數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市。實(shí)際上,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖之間存在協(xié)同作用。例如,可以將在數(shù)據(jù)湖中收集的結(jié)構(gòu)化數(shù)據(jù)集移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù)中,以進(jìn)行常規(guī)的OLAP存儲(chǔ)和分析。供應(yīng)商也已開(kāi)始將大數(shù)據(jù)訪問(wèn)集成到數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)中,從而可以從一個(gè)位置訪問(wèn)存儲(chǔ)在不同系統(tǒng)中的,不同格式的數(shù)據(jù)。
數(shù)據(jù)倉(cāng)庫(kù)用例和場(chǎng)景
下面我們介紹一些用例和方案,這可能會(huì)影響組織的數(shù)據(jù)倉(cāng)庫(kù)策略,以及決定為數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目部署哪種類型的平臺(tái)。
初次VS長(zhǎng)期數(shù)據(jù)倉(cāng)庫(kù)用戶。希望擴(kuò)展現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的公司通常會(huì)很好地繼續(xù)使用他們已經(jīng)建立的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)。對(duì)于第一次實(shí)施數(shù)據(jù)倉(cāng)庫(kù)的組織而言,數(shù)據(jù)倉(cāng)庫(kù)設(shè)備可能是一個(gè)不錯(cuò)的選擇。供應(yīng)商可能會(huì)與您一起確定適合的設(shè)備規(guī)格和配置,而且這些設(shè)備的交付是非常簡(jiǎn)易的。但是,所有數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)對(duì)于首次使用的用戶都是可行的選擇,您應(yīng)該審查本部門中的其他用例,以開(kāi)發(fā)您的特定要求和部署計(jì)劃。
公司規(guī)模。大型公司可能會(huì)選擇主流的關(guān)系DBMS、分析數(shù)據(jù)庫(kù)或混合事務(wù)/分析處理(HTAP)系統(tǒng)。這些組織擁有成功使用此類技術(shù)的基礎(chǔ)架構(gòu)和人員。在HTAP方法中,相同的DBMS既可以用于處理業(yè)務(wù)交易,也可以用于BI和分析建模。為了支持HTAP,關(guān)系數(shù)據(jù)庫(kù)引擎可以提供內(nèi)置的列式訪問(wèn)或用于分析處理的附加設(shè)備。
另一方面,較小的組織應(yīng)考慮使用數(shù)據(jù)倉(cāng)庫(kù)設(shè)備或云數(shù)據(jù)倉(cāng)庫(kù)服務(wù)。這兩種選擇都可以最大程度地減少管理需求:設(shè)備已預(yù)先配置,并且DWaaS環(huán)境提供的云中的數(shù)據(jù)倉(cāng)庫(kù)一般由云服務(wù)提供商進(jìn)行設(shè)置和管理。
IT部門的規(guī)模。IT部門相對(duì)較小的大型組織往往擁有較少的數(shù)據(jù)庫(kù)管理員和其他可以建設(shè)、調(diào)整和管理數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的IT專業(yè)人員。對(duì)于他們來(lái)說(shuō),考慮使用數(shù)據(jù)倉(cāng)庫(kù)設(shè)備或DWaaS產(chǎn)品也很有意義。
云用例。如果您的組織在云中運(yùn)行大量應(yīng)用程序,則DWaaS部署或自我管理的云數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)可能是您的最佳選擇。將生成和存儲(chǔ)在云中的業(yè)務(wù)數(shù)據(jù)保存在云中以進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)和分析是一種符合邏輯的方法。
數(shù)據(jù)延遲要求。對(duì)于在分析應(yīng)用程序中需要最小數(shù)據(jù)延遲的組織而言,優(yōu)化的數(shù)據(jù)倉(cāng)庫(kù)設(shè)備可能最有價(jià)值。使用其他方法也不是說(shuō)無(wú)法實(shí)現(xiàn)近實(shí)時(shí)的延遲,但是您可能需要使用其他高速硬件和軟件來(lái)擴(kuò)展數(shù)據(jù)倉(cāng)庫(kù)環(huán)境,以滿足您的性能目標(biāo)。
一旦您的組織決定需要建設(shè)一個(gè)數(shù)據(jù)倉(cāng)庫(kù),并確定了最合理的部署方案,下一步就是研究購(gòu)買數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的可用技術(shù)選項(xiàng)。整個(gè)過(guò)程,往往需要經(jīng)過(guò)萬(wàn)全的考慮。