680 likes | 988 Views
大綱. 11.1 前言 11.2 企 業資料處理架構 11.3 資料倉儲 11.4 On Line Analysis Processing (OLAP) 11.5 資料探勘 11.6 OLAP 專題實作. 企業資料處理架構 . 種類 電子處理系統 主 / 從式系統 檔案共享系統 分散式系統 . 電子處理系統 (Teleprocessing Systems) 支援多個使用者的資料處理架構 。. 圖 11.1 電子處理系統. 主 / 從式系統 (Client-Server Systems) 是另一個支援多個使用者資料處理環境的架構
E N D
大綱 • 11.1 前言 • 11.2 企業資料處理架構 • 11.3 資料倉儲 • 11.4 On Line Analysis Processing (OLAP) • 11.5 資料探勘 • 11.6 OLAP專題實作 挑戰資料庫管理系統
企業資料處理架構 • 種類 • 電子處理系統 • 主/從式系統 • 檔案共享系統 • 分散式系統 挑戰資料庫管理系統
電子處理系統(Teleprocessing Systems) • 支援多個使用者的資料處理架構。 圖11.1 電子處理系統 挑戰資料庫管理系統
主/從式系統(Client-Server Systems) • 是另一個支援多個使用者資料處理環境的架構 • 與電子處理系統最大的差別: • 在電子處理系統中,集中式電腦包含終端機端的作業系統、主機端的作業系統、應用程式以及資料庫管理系統。 • 在主/從式系統中,主機只保留本身的作業系統、資料庫管理系統,以及負責與終端機端的作業系統進行溝通的終端機端的作業系統。 挑戰資料庫管理系統
圖11.2 主/從式系統 挑戰資料庫管理系統
檔案共享系統(File-sharing Systems) • 使用者端的電腦都會安裝資料處理所需要的應用程式,而且負責儲存資料的資料庫仍舊安裝在主機上。 • 資料庫管理系統是個別安裝在個人使用者端的電腦。 • 使用者端運作的元件變成資料處理所需要的應用程式、使用者端的作業系統以及資料庫管理系統。 挑戰資料庫管理系統
圖11.3 檔案共享處理系統 挑戰資料庫管理系統
分散式資料庫系統(Distributed Database Systems) • 分散式資料庫系統可以稱做主/從式系統的極端代表作。 • 若發生兩個或多個以上的資料庫管理系統對應到同一個資料庫,便稱作分散式資料庫系統。 • 最大的特色: • 使用者在擷取存放在其他資料庫主機上的資料時,他完全不須要事先知道資料的實際儲存位置。 • 根據使用者所下達的指令,到適當的資料庫主機擷取資料是使用者所在資料庫主機上的資料庫管理系統的職責,而資料庫管理系統則是透過目錄管理來解決此問題。 挑戰資料庫管理系統
圖11.4 分散式資料庫系統 挑戰資料庫管理系統
資料倉儲 • 資料倉儲之父Bill Inmon對資料倉儲下了一個簡短的定義:資料倉儲不只是一個資料庫,它還具備四項特性,分別是主題性、整合性、時間變數以及非變動性。 • 定義: • 資料倉儲不只是一個資料庫,它還具備四項特性,分別是整合性、主題性、時間變數以及非變動性。 • 主題性:存在資料倉儲的資料都跟既定的主題相關進而可以支援該主題相關的決策。 • 整合性:會根據某一個與決策相關的主題,從企業各個資料庫擷取與之相關的資料而匯入資料倉儲。 • 時間變數:資料會保存5-10年,所以可適用於長時間的趨勢預測與分析。 • 非變動性:資料一旦進入資料倉儲,便不會輕易被更動。 挑戰資料庫管理系統
表11.1 資料倉儲與資料庫比較 挑戰資料庫管理系統
特性 • 在利用關聯式資料模式工具:E-R資料模式定義資料倉儲時,會呈現星狀結構(Star Schema)。 圖11.5 星狀資料綱目 挑戰資料庫管理系統
星狀架構 圖11.6 原始資料表(儲存在資料庫)與Dimension/Fact資料表(儲存在資料倉儲)之間的關係 挑戰資料庫管理系統
資料倉儲 vs.資料庫 • 兩者不盡相同,卻存在相互依存的關係。 • 儲存在資料倉儲的資料是來自於記錄企業運作狀況的異動資料庫(transaction database) 。 圖11.7 資料倉儲與資料庫之間的關聯 挑戰資料庫管理系統
資料倉儲的種類 • 企業資料倉儲 (Enterprise Data Warehouse) • 企業資料倉儲架構是最簡單和最基本的倉儲型態。 圖11.8 企業資料倉儲建構方式 挑戰資料庫管理系統
企業資料超市 (Data Mart) • 此資料倉儲所涵蓋的範圍比企業資料倉儲小,其資料的涵蓋範圍為企業的部份資料。 • 主要是將來源資料依照功能屬性的不同,分別轉換到各個資料超市。 挑戰資料庫管理系統
虛擬資料倉儲 (Virtual Data Warehouse) • 不另建特殊的資料庫擔任資料倉儲的角色,而是僅訂定資料倉儲的資料模式,而資料則仍儲存在企業目前的交易資料庫中 。 • 資料綱目以及實際資料之間關係的連結則是透過特殊的資料倉儲軟體來達成 。 圖11.10 虛擬式資料倉儲 挑戰資料庫管理系統
混合式資料倉儲 (Hybrid Data Warehouse) 這類架構是將部門內資料匯入資料超市,而後定義一個完整的資料倉儲的資料綱目,然後透過特殊資料倉儲軟體連結實體資料超市與資料倉儲綱目之間的關聯性 。 優點: 資料已經經過轉換,因此,可以提高資料檢索的處理速度。 用多個資料超市替代一個大的企業資料倉儲,因此整體來說,可以減少硬體的投入成本。 個別建立資料超市也可以有效降低鍵構資料倉儲的風險以及複雜度。 問題:當決策者所要檢索的資料需要跨多的資料超市時,其檢索速度將比企業資料倉儲為慢。 挑戰資料庫管理系統
圖11.11 混合式資料倉儲 挑戰資料庫管理系統
On Line Analysis Processing (OLAP) • OLAP全名是Online Analytical Processing(線上分析處理) 。 • 最早是在1993年Arbor 軟體公司的白皮書中被提出。 • 基本概念是對資料進行建立、建立、管理、分析與製作報表等過程。 • 線上分析處理與一般資料庫查詢語言最大的差別在於它可以同時針對多個屬性進行查詢。 • 由於OLAP有以星狀為結構的資料模式為後盾,因此,它在進行多屬性的查詢,所花費的處理時間較針對一般交易資料庫查詢為少。 挑戰資料庫管理系統
圖11.12 利用OLAP產生的彙整性資料報表 圖11.12 利用OLAP產生的彙整性資料報表 挑戰資料庫管理系統
資料探勘 • 針對大量資料進行分類、計算、排序,甚至找出存在資料之間隱而未覺的關聯性的一種技術。 • 這門新的學科包含了許多其他相關的領域,包括:統計、機器學習(Machine Learning)、電腦視覺(Visualization)、資料庫(包括應用到資料庫儲存需要探勘的資料,或是利用查詢語言對要探勘資料進行資料查詢)以及專家系統。 挑戰資料庫管理系統
圖11.13 知識探勘與其他領域的關聯性 挑戰資料庫管理系統
資料探勘過程可以細分為四個步驟: • 資料前置處理、資料檢選和轉換、資料探勘和果評估與展示。 圖11.14 資料探勘的步驟 挑戰資料庫管理系統
步驟說明 • 資料前置處理: • 資料整理(cleaning),分別是資料對資料進行檢視去除不一致的資料、異常值或是內容不正確的資料值組。 • 資料彙整(integration),主要是將不同來源的相同值組進行彙整。 • 資料檢選和轉換: • 在整理後的資料可能仍包含許多屬性(對應到資料庫術語便是有許多欄位),但是並不是現有的所有屬性都會被用來進行資料探勘,因此,在本階段需要對屬性作篩選。 挑戰資料庫管理系統
資料探勘: • 利用各類資料探勘的演算法對整理過的資料進行探勘。 • 資料探勘的演算法 • 統計方法中的時間數列、決策樹(decition tree)、分群方法(clustering)、分類方法(classification)或是因果分析方法(association rule) 。 • 包括一般資料庫的查詢方法和基本的統計方法(包括計算平均值、變異數或是眾數)等。 • 結果評估與展示: • 一旦評估探勘結果具有決策參考價值,便需要以使用者容易了解的方式將結果展示給使用者,例如:長條圖或是決策樹等方式以利管理階層閱讀。 挑戰資料庫管理系統
OLAP專題實作 • 建立ODBC資料連結 • 利用Excel建立資料分析模型 挑戰資料庫管理系統
選擇資料庫檔 • Step1. 請從「開始」功能表中選取「程式集 / Microsoft Excel」選項,啟動您的Excel,在開啟的Excel視窗中選取「資料 / 樞紐分析及圖報表…」指令,如圖11.25所示。 圖11.25 選取「資料/樞紐分析及圖報表…」指令 挑戰資料庫管理系統
Step2.在「樞紐分析表和樞紐分析圖表精靈」視窗中選取「外部資料庫」選項,而後選按「下一步」按鈕,如圖11.26所示。Step2.在「樞紐分析表和樞紐分析圖表精靈」視窗中選取「外部資料庫」選項,而後選按「下一步」按鈕,如圖11.26所示。 圖11.26 選取「外部資料庫」選項,同時選按「下一步」按鈕 挑戰資料庫管理系統
Step3. 在「樞紐分析表和樞紐分析圖表精靈」視窗中選取「取得資料…」按鈕,如圖11.27。 圖11.27 選取「取得資料…」按鈕 挑戰資料庫管理系統
Step4. 在「選擇資料來源」對話框中選取您事先利用ODBC建立連結的資料庫名稱,例如:FoodMart*,而後選按「確定」按鈕。如圖11.28。 圖11.28 選取要分析的資料庫名稱後按下「確定」按鈕 挑戰資料庫管理系統
從多個資料表選取資料欄位 • Step1.開啟「查詢精靈-選取資料欄」視窗後,選擇您要加入的資料欄所在的資料表,例如product,然後按下該資料表前面的十字,展開資料表,如圖11.29所示。 圖11.29 選取您未來要分析資料的欄位所在的資料表,前方的十字是展開鈕 挑戰資料庫管理系統
Step2. 從該資料表所包含的資料欄位中選取您想要分析的欄位名稱,例如:brand_name,然後選按中間的向右箭頭,如圖11.30所示,將選定的欄位加入「在查詢中的欄位」。 圖11.30 在此選取要分析的資料欄位 挑戰資料庫管理系統
Step3. 移動「可加入的表格及欄位」群組中的捲軸,選擇下一個要展開的資料表名稱,例如:time_by_day,如圖11.31所示。 圖11.31 選取time_by_day資料表 挑戰資料庫管理系統
Step4. 選按time_by_day資料表前面的十字,展開資料表,顯示該資料表所包含的資料欄位名稱。例如:the_month,之後選按向右箭頭,將先前選取的the_month資料欄位加入「在查詢中的欄位」,如圖11.32所示。 圖11.32 用同樣的方法加入另一個要分析的欄位 挑戰資料庫管理系統
Step5. 選取第三個要展開的資料表名稱,此例為:sales_fact_1998,同樣用前方的十字鈕將它展開,如圖11.33所示。 圖11.33 選擇第三個資料表,並按資料表前方的十字符號 挑戰資料庫管理系統
Step6. 在展開的資料表中選取所要的欄位名稱,例如:store_sales,而後選按向右鍵,將資料加入「在查詢中的欄位」群組,如圖11.34。 圖11.34 將store_sales加入「在查詢中的欄位」群組 挑戰資料庫管理系統
Step7. 繼續選擇同一資料表中的另一個欄位名稱,例如:store_cost,而後選按向右鍵,將資料加入「在查詢中的欄位」群組,如圖11.35。 圖11.35 將store_cost加入「在查詢中的欄位」群組 挑戰資料庫管理系統
Step8.再用同樣的手法,加入sales_fact_1998資料表的unit_sales欄位,如圖11.36。Step8.再用同樣的手法,加入sales_fact_1998資料表的unit_sales欄位,如圖11.36。 圖11.36 將unit_sales也加入「在查詢中的欄位」群組 挑戰資料庫管理系統
Step9. 選取第四個要展開的資料表store,然後選按前方的十字符號,如圖11.37所示。 圖11.37 選按store前方的十字符號 挑戰資料庫管理系統
Step10. 在展開的資料表中選取所要的欄位名稱:store_name,如圖11.38。而後選按向右鍵,將資料加入「在查詢中的欄位」群組。 圖11.38 選取store_name 挑戰資料庫管理系統
Step11. 6個要查詢的欄位都選妥後,從視窗右下方選按「下一步」按鈕,如圖11.39。 圖11.39 資料欄位都選定後,利用「下一步」按鈕進入下一步驟 挑戰資料庫管理系統
設定資料篩選條件 • Step1. 由於我們不特別篩選特定資料,所以此處只需在 「查詢精靈-篩選資料」視窗中選按「下一步」按鈕,如圖11.40。 圖11.40 選按「下一步」按鈕 挑戰資料庫管理系統
Step2. 同樣地,我們也不指定資料排序方式,因此直接在「查詢精靈-條件順序」視窗中選按「下一步」按鈕,如圖11.41。Step2. 同樣地,我們也不指定資料排序方式,因此直接在「查詢精靈-條件順序」視窗中選按「下一步」按鈕,如圖11.41。 圖11.41 選按「下一步」按鈕 挑戰資料庫管理系統
Step3. 在「查詢精靈-完成」視窗中選按「完成」按鈕,完成資料分析所需的資料欄位選定。如圖11.42。 圖11.42 選按「完成」按鈕 挑戰資料庫管理系統
Step4. 在「樞紐分析表和樞紐分析圖精靈」視窗中,您會發現「取得資料…」鈕的後方顯示資料已傳回,請選按「下一步」按鈕,如圖11.43。Step4. 在「樞紐分析表和樞紐分析圖精靈」視窗中,您會發現「取得資料…」鈕的後方顯示資料已傳回,請選按「下一步」按鈕,如圖11.43。 圖11.43 資料的匯入設定完成,請選按「下一步」按鈕 挑戰資料庫管理系統
輸出報表的版面配置 • Step1. 在「樞紐分析表和樞紐分析圖精靈」視窗中勾選「新工作表」,並選按「版面配置…」按鈕,如圖11.44,指定未來建置樞紐分析的工作表位置。 圖11.44 開啟新工作表來做「版面配置…」 挑戰資料庫管理系統
Step2. 在「樞紐分析表和樞紐分析圖精靈-配置」視窗中會出現您剛剛選定的資料表欄位,請移動游標選取要指定顯示位置的欄位名稱,例如:the_month,如圖11.45。 圖11.45 選取the_month 挑戰資料庫管理系統
Step3. 按住滑鼠左鍵不放,將選取的欄位名稱拖曳到要指定的版面位置,例如:分頁,如圖11.46。 圖11.46 將the_month拖曳到「分頁」位置 挑戰資料庫管理系統