1.17k likes | 1.48k Views
資料探勘 第二單元 資料探勘的技術與工具. 資料探勘的語言與工具. 本周綱要. 資料探勘語言及其標準化 常用資料探勘工具 資料探勘工具的評估標準 常用資料探勘工具的選擇 Weka 簡介. 資料探勘語言及其標準化. 經過十多年的發展,資料探勘技術的研究與應用已取得了很大的成果,然而我們還面臨著許多問題: 各種資料探勘問題及探勘方法由於模型和技術皆不盡相同,彼此互相孤立,關係很小。 缺少簡明精確的問題描述方法,探勘的語義通常是由執行方法決定的。. 資料探勘系統僅僅提供孤立的知識發現功能,難於嵌入大型應用。
E N D
資料探勘第二單元 資料探勘的技術與工具 資料探勘的語言與工具
本周綱要 • 資料探勘語言及其標準化 • 常用資料探勘工具 • 資料探勘工具的評估標準 • 常用資料探勘工具的選擇 • Weka簡介
資料探勘語言及其標準化 經過十多年的發展,資料探勘技術的研究與應用已取得了很大的成果,然而我們還面臨著許多問題: • 各種資料探勘問題及探勘方法由於模型和技術皆不盡相同,彼此互相孤立,關係很小。 • 缺少簡明精確的問題描述方法,探勘的語義通常是由執行方法決定的。
資料探勘系統僅僅提供孤立的知識發現功能,難於嵌入大型應用。資料探勘系統僅僅提供孤立的知識發現功能,難於嵌入大型應用。 • 資料探勘引擎與資料庫系統是鬆散耦合,T. Imielinski和H. Mannila稱其為"檔案探勘(filemining)系統",即它沒有提供獨立的應用作業語言。
資料探勘語言的分類 • 一個好的資料探勘語言可以有助於資料探勘系統平台的標準化的開發,甚至可以像超文本操作語言(HTML)推動網際網路(Internet)的發展一樣,推動資料探勘產業的開發和發展。 • 設計整體的資料探勘語言是一個巨大的挑戰,因為資料探勘覆蓋了範圍寬廣 的任務。從資料特徵化到探勘關聯規則,資料分類,叢集和偏差檢測等等 。
資料探勘語言的研究經歷了兩個階段: • 第一個階段是研究單位和公司自行研究和開發的階段 • 第二階段是研究單位和公司組成聯盟,研發資料探勘語言標準化的階段。
第一個階段成果包括Jiawei Han等研製的DMQL;Imielinski和Virmani;提出的MSQL;Meo、Psaila和Ceri提出的MINE RULE操作器等。 • 第二個階段主要包括資料探勘組織協會(DMG)提出的預測模型標記語言PMML,以及微軟公司提出的OLEDB for Data-Mining規格。
資料探勘查詢語言 • 資料探勘查詢語言DMQL由資料探勘資料元素所組成。 • 資料探勘資料元素用來定義一個資料探勘任務。 • 使用者使用資料探勘資料元素與資料探勘系統通訊,使得知識發現更有效。
一個資料探勘查詢由下列五種基本的資料探勘資料元素定義:一個資料探勘查詢由下列五種基本的資料探勘資料元素定義: • 任務相關資料資料元素 探勘的資料不是整個資料庫,只是和具體商業問 題相關,或者使用者感興趣的資料集。 • 被探勘的知識的種類資料元素 在DMQL中將探勘知識分為五種類型,即五種知 識的表達: • 特徵規則 • 辨別規則 • 關聯規則、分類/預測規則 • 聚集規則
背景知識資料元素 背景知識資料元素包括: • 概念階層(concept hierarchy) • 對資料關係之使用者信任度(user beliefs about ,比如:支援度)、 • 新穎性(novelty relationships in the data)。 • 興趣度測量資料元素 興趣度測量資料元素包括: • 簡單性(simplicity)、 • 確定性(certainty)、 • 效用性(utility) • 新穎性(novelty)
被發現模式的呈現和視覺化資料元素 這個資料元素定義被發現的模式顯示的方式和使用者能夠選擇不同的知識表示形式。該資料元素包括: • 規則 • 試算表 • 報告、圖表 • 圖形 • 決策樹和立方體 • 問下鑽入和向上累積
DMQL正是基於這些資料元素設計導向的資料採掘查詢語言。它允許從關聯式資料庫和資料倉儲中從多個抽象階層上特殊和互動式地探勘多種種類的知識。DMQL正是基於這些資料元素設計導向的資料採掘查詢語言。它允許從關聯式資料庫和資料倉儲中從多個抽象階層上特殊和互動式地探勘多種種類的知識。 MSQL是一個資料探勘查詢語言,是由Imielinski和Virmani提出的。這個語言使用了類似SQL的語法和SQL資料元素(包括排序、分組和其他資料元素)。
資料探勘建模語言 資料探勘建模語言是對資料探勘模型進行描述和定 義的語言,PMML屬於這種建模語言。 • PMML是資料探勘協會(data mining group, http://www.dmg.org/,DMG)組織開發的。 • PMML是一種XML導向的語言,用來定義預測模型。 • PMML提供了一個靈活機制來定義預測模型的模式
使用PMML進行模型定義由以下幾部分所組成: • 標頭檔案(a header); • 資料模式(a data scheme); • 資料探勘模式(a data mining scheme); • 預測模型模式(a predictive model scheme); • 預測模型定義(definitions for predictive models); • 全體模型定義(definitions for ensembles of models); • 選擇和聯合模型、全體模型的規則(rules for selecting and combining models and ensembles of models); • 異常處理的規則(rules for exception handling)。
PMML 1.0標準版提供了一個小的文件類型定義DTD集合,DTD詳細說明 了決策樹和多項式迴歸模型的實體和屬性。 DMG當前正在制定PMML版本1.1,該版本提供與應用程式定義模型相獨立的方法,使得版權問題和不相容問題不再成為應用程式之間交換模型的障礙。
通用資料探勘語言 • 資料探勘語言既具有定義模型的功能,又能作為查詢語言與資料探勘系統通訊,進行互動式和特殊的探勘。 • 2000年3月,微軟公司推出了一個資料探勘語言,稱作OLE DB for Data Mining (DM)。 • OLEDB for DM可看成通用資料探勘語言。
OLE DB for DM的規格包括創建資料元素以及許多重要資料探勘模型的定義和使用(包括預測模型和聚集)。 • 是一個SQL語言導向的協定。 • OLE DB for DM延伸了SQL語言的語法。 • OLE DB for DM支援多種流行的資料探勘演算法。 • 資料探勘應用能夠透過OLE DB生產者接取任何試算表格的資料來源。 • OLEDB for DM並沒有增加任何新的OLEDB介面;相反,這個規格定義了一個簡單的查詢語言。
OLE DB for DM定義了重要的新概念和特點,包括下列幾點: • 資料探勘模型(data mining model,DMM) DMM類似一個關聯表,但是它包含了一些特殊的 列,這些列在資料探勘中的資料訓練和預測制定 時使用。 • 預測聯接作業(predication join operation) 這是一個簡單的作業,類似於SQL語法中的聯接 作業。 • OLE DB for DM模式行集合(scheme row sets) 這些特殊目的的模式行集合允許消費者應用程式 發現臨界的資訊 。
分析與評估 • PMML為處理和交換預測模型提供了一個簡單、開放的架構,使各公司能夠更加迅速地使用他們從現在和傳統的資料中探勘出的資訊。 • PMML允許使用者在一個軟體公司的應用程式之內開發模型。 • PMML是預測模型標記語言,資料探勘模型包括預測模型和描述模型。
PMML並不是整體的資料探勘模型定義語言。 • PMML或者類似於PMML的事物,隨著商業系統對統計和資料探勘工具與技術需求的日益增加。 • OLE DB for DM規格的發布在預測和描述分析模型俄商業廣泛應用使用的道路上是一個重大的里程碑。 • 它同時具備了資料探勘查詢和建模語言的優點,它的推廣必將推動資料探勘產業的發展。
常用資料探勘工具 • 按使用方式分類的資料探勘工具: • 決策方案生成工具往往是針對某個特定行業或特定問題而開發的一類資料探勘工具。 • 商業分析工具有兩種類型。一種是只為客戶提供一個黑箱,另一種資料探勘工具則向客戶展示資料探勘模型。
按資料探勘技術分類的資料探勘工具: • 類神經網路導向的工具 • 規則和決策樹導向的工具 • 模糊邏輯導向的工具 • 整合性資料探勘工具等
按應用範圍分類的資料探勘工具 • 專用型資料探勘工具 專用型資料探勘工具主要用於某一特定領 域。 • 通用型資料探勘工具 通用型資料探勘工具一般不考慮所探勘物 件的實際涵義,只提供各種通用探勘演算 法。
通用型資料探勘工具: • IBM公司的IM智慧型探勘器,這是一套包括了Explorer、Diamond和Quest在內的軟體產品。 • SPSS公司統計套裝軟體SPSS在統計領域處於領先的地位 • Red Brick公司的Red Brick資料探勘工具是第一個將資料探勘解決方案與資料庫整合在一起的資料探勘元件。
資料探勘工具的評估標準 如何選擇滿足需要的資料探勘工具就成了資料探勘 應用中首先要解決的問題。在選擇資料探勘工具 時,一般可以參照以下評價標準。
模式種類的數量 資料探勘工具能夠提供的模式越多,它的知識發現能力越強,而且多種類型模式的整合應用,有助於降低問題的複雜性。
解決複雜問題的能力 • 為了解資料探勘工具解決複雜問題的能力,可以從探勘工具的模式應用、資料選擇和轉換能力、視覺化程度和延伸性等方面審視。 • 資料探勘工具的延伸性也是提高探勘工具解決複雜問題能力的一個重要因素。
操作性能 操作性能的好壞是一個影響探勘工具性能的重要因素。 • 資料獲取能力 沒有一種工具可以支援所有類型的資料庫或資料倉儲,但應該可以通過通用接口連接大多數流行的資料庫或資料倉儲,這有利於提高資料探勘工具的使用範圍。
探勘結果的輸出 資料探勘工具不僅能夠將探勘結果以多種方式輸出,而且要求輸出的結果便於客戶的瞭解與應用。 • 噪音資料(雜質)的處理及探勘工具的穩健性 噪音資料的處理從另一個角度說明探勘工具需要具有一定的穩定性,從資料探勘工具的目標來看,是希望能夠對未知的物件做出正確的判斷。
常用資料探勘工具的選擇 由於資料探勘工具種類繁多,客戶在選擇探勘工 具時,需要從工具的實用性和技術性方面進行研 究。 從技術性方面審視資料探勘工具時,需要根據資 料探勘工具評估標準,選擇那些技術性能指標良好的資料探勘工具。
WEKA 簡介 • 由紐西蘭Waikato大學電腦科學系所發展出的資料探勘應用軟體 • 利用Java程式語言發展而成,並且在Java的環境下運作,故具備可以提供跨平台執行的功能。 • 主要提供機器學習演算法的分析歸納功能,並解決真實世界資料探勘的問題。
WEKA提供眾多資料探勘演算法,主要包含資料預處理、關聯規則、分類預測法、叢集分析法等, 並具備視覺化的圖形介面。 • WEKA屬於共享軟體,因此也提供原始碼 , 且研究人員可將研究改良的演算法上傳到網路。 • WEKA的下載與安裝http://www.cs.waikato.ac.nz/ml/weka/
功能選單 操作紀錄 狀態欄 WEKA狀態欄
Explorer: 資料預處理 • 可匯入的資料檔案格式: ARFF, CSV, C4.5, binary • 可匯入的資料檔案來源: 本機硬碟, URL or SQL database (using JDBC) • 可提供的資料預處理項目: • 離散化(Discretization), 正規化(normalization), 重新抽樣(resampling), 屬性選擇(attribute selection), 屬性轉換或合併(transforming and combining attributes), …
資料庫名稱 資料筆數 屬性數目 選一屬性,顯示其最大值、最小值 、平均值與標準差等