180 likes | 351 Views
Chapter I: 資料探勘 - 初探. 目標. 定義 DM 並瞭解如何用來解決問題 瞭解電腦是最佳學習概念的工具 瞭解 DM 可被用來當成可能問題解決策略之時機 瞭解專家系統與資料探勘使用不同的方法來完成相似的目標 瞭解如何從事前定義的類別資料所形成概念定義來建立監督式學習的模型. 目標. 瞭解非監督式學習分群模型的建立並不需要藉助事前定義類別 瞭解分類模式可將未知來源的新資料加以分類 瞭解資料探勘已經可以成功的應用在許多領域上。. 資料探勘定義. 定義:一種從整個資料庫理的資料,利用一種或多種電腦技術來自動分析與擷取知識的過程。
E N D
目標 • 定義DM並瞭解如何用來解決問題 • 瞭解電腦是最佳學習概念的工具 • 瞭解DM可被用來當成可能問題解決策略之時機 • 瞭解專家系統與資料探勘使用不同的方法來完成相似的目標 • 瞭解如何從事前定義的類別資料所形成概念定義來建立監督式學習的模型
目標 • 瞭解非監督式學習分群模型的建立並不需要藉助事前定義類別 • 瞭解分類模式可將未知來源的新資料加以分類 • 瞭解資料探勘已經可以成功的應用在許多領域上。
資料探勘定義 • 定義:一種從整個資料庫理的資料,利用一種或多種電腦技術來自動分析與擷取知識的過程。 • 資料探勘所獲得的知識通常是資料模型或歸納。 • 三個例子 (on page 4)
知識發現(KDD) • 知識發現(Knowledge Discovery in Databases, KDD) • 為一種被用來和資料探勘互相交換使用的術語。 • 技術上KDD是一種運用科學方法來作資料探勘的應用。 • 目前已經很少去區別DM與KDD。
什麼是電腦可以學習的? • DM是一種學習。 • 學習可區分為四等級(Merril, Tennuson, 1977): • 事實:真相的簡單敘述。 • 概念:一個由一群擁有特定特性之物件、特徵或事件的集合。 • 程序:達成某個目標所採行一步接一步連續的動作。 • 原則:乃是最高層次的學習。 • 概念是資料探勘的產出結果。
三個概念觀 • 標準概念觀(Classical View) • 具有確定定義屬性的概念。p.6 • 可能性概觀(Probabilistic View) • 表達那些可能成為概念成員的屬性。p.7 • 範例概觀(Exemplar View) • 若一個給定的例子與一個或多個已知的概念範例夠相似的話,則代表此例子是可以被拿來作為一個特別概念的範例。p.7
學習 • 監督式學習(Supervised Learning) • 使用監督式學習從包含有正例與反例的學習概念中之資料集中,來建立分類模型。 • 分類模型建立後,該分類模型就可被用來分辨未知類別之範例。p.7-8 • 非監督式學習(Unsupervised Learning) • 建立模型之資料並非事前定義好的。 • 資料範例會根據群集系統所定義的相似性函數,歸納成數個個群。p.13-14
DM適合用來解決我的問題嗎? • 我們可以清楚定義問題嗎? • 有潛在意義存在嗎? • 這些資料有包含隱藏的知識還是只能當陳述的事實資料? • 處理資料過程所花費的成本小於資料探勘專案所得任何潛在資訊所有可能帶來的利潤?
四種知識類型 • 定義知識類型可協助我們決定何時應該考慮使用資料探勘 • 膚淺的知識(Shallow Knowledge) • 多維度的知識(Multidimensional Knowledge) • 隱含的知識(Hidden Knowledge) • 深層的知識(Deep Knowledge)
膚淺的知識(Shallow Knowledge) • 本質上就是事實。 • 容易由資料庫中儲存與操作。 • 可用SQL從資料庫中擷取膚淺之知識。
多維度的知識(Multidimensional Knowledge) • 也是事實。 • 儲存於一個多維度格式中。 • 線上分析處理(OLAP)工具常被用於多維度資料上。
隱含的知識(Hidden Knowledge) • 在資料裡不容易被資料庫查詢語言所找到的樣式或規則。 • 藉由DM工具可以找出此類樣式規則。
深層的知識(Deep Knowledge) • 經由指定一些我們想要獲得知識的方向,才有可能從資料庫找到這些知識。 • 目前資料探勘工具並無法找出。
查詢工具 • 資料庫查詢語言及OLAP工具都是在我們確切知道要找什麼或陳述什麼資訊時,成為很好用的工具。p.16 • 查詢輸出結果能對未來決策的制訂提供有價值的資訊。 • 資料查詢可以成功解決陳述性的查詢問題,然對於潛在的資訊則無法有效解決問題。 • 資料探勘工具提供了一些可能性假設(hypothesis)資料庫查詢語言及OLAP工具,可利用來驗證。
專家系統vs.資料探勘 資料探勘工具 If 淋巴腺腫脹=有 Then 診斷結果=鏈球菌性喉炎 資料庫 專家 知識工程師 If 淋巴腺腫脹=有 Then 診斷結果=鏈球菌性喉炎 建立專家系統
簡單資料探勘處理模式 • 四個步驟 • 組合所蒐集的資料來分析 • 將這些資料輸入到資料探勘的軟體程式 • 解釋結果 • 對新問題或狀況,運用所獲得結果。 結果應用 操作型資料庫 資料探勘 解釋與評估 資料倉儲
探勘資料 • 在執行資料探勘處理時,有下列選擇: • 運用監督式或非監督式學習? • 哪些資料當成建立模型之資料,哪些當成測試模組之資料。 • 要從可用的屬性中選擇出哪些重要屬性呢? • 資料探勘工具會要求使用者定義一個或多個參數,而什麼樣的參數才能建立一個可代表這些資料的最佳模式?