200 likes | 414 Views
KNN 應用之種類型資料 對映演算法. 指導教授:郭煌政 博士 研究生:林奕森 資四甲 張文馨 簡辰珈. 摘要. 基於記憶推理是一種運用廣泛的資料探勘技術,要 預測新進案例時,必須與資料集中的案例一一計算 距離,再找出鄰近的 k 筆案例,最後利用這些案例 推理出新進案例。 以索引架構模擬多維度空間索引資料結構來確定 對映準確度,去計算同欄位間不同類別的彼此之 相似度,這個轉換之方式經實驗證實可以有效的 指出兩個類別彼此之相似度,可以有效減少搜尋 時間,及資料屬性相似度之準確性。. 研究目的
E N D
KNN應用之種類型資料對映演算法 指導教授:郭煌政 博士 研究生:林奕森 資四甲 張文馨 簡辰珈
摘要 • 基於記憶推理是一種運用廣泛的資料探勘技術,要 預測新進案例時,必須與資料集中的案例一一計算 距離,再找出鄰近的k筆案例,最後利用這些案例 推理出新進案例。 • 以索引架構模擬多維度空間索引資料結構來確定 對映準確度,去計算同欄位間不同類別的彼此之 相似度,這個轉換之方式經實驗證實可以有效的 指出兩個類別彼此之相似度,可以有效減少搜尋 時間,及資料屬性相似度之準確性。
研究目的 MBR技術之相關概述 MBR技術之相關應用 MBR技術優缺點評析 多維度空間資料結構 相關研究 多維度空間資料結構 概述 距離矩陣概述 定義對映表 (Mapping Table) 對映演算法 (Mapping Algorithm) 結論 未來展望 大綱
研究目的 • 除了利用MBR強大的分類及預測功能外,更 希望藉由演算法,對兩筆記錄資料中的欄位 作位置順序之比對。 (對種類資料轉換為數值資料形態,進而利用 一些高維度的樹狀資料結構,模擬索引機制 使用近似KNN技術,比對新進資料與訓練 資料集在轉換後的準確度。)
MBR技術之相關概述 • MBR 除了大家比較熟知方法,如使用一些 參數函數去做每筆紀錄運算外,還可以使用 一些統計方面的相關技術去做分類,如 線性回歸等等。
MBR領域之相關應用 • MBR已經被成功的應用在一些範圍上的分類 ,早期亦與類神經網路或是人工智慧方面的 應用結合,近期則是為了紀錄與預測顧客購買 商品的行為模式,而和商業技術應用結合。 • MBR利用已知的training dataset 來推斷未知 的模型。
MBR技術優缺點評析 • MBR之優點 • 分類結果易於推論 • 幾乎可以處理任何形式的資料 • 輸入欄位數量並不影響決定性 • 訓練資料集易於建立
MBR技術優缺點評析 • MBR 之缺點 • 預測階段計算複雜 • 訓練資料集必須數量足夠 • 設定不同距離、組合函數有不同結果
多維度空間資料結構相關研究 • Aha提出的演算法是一種基於增加案例的學習 演算法,除了可以同時處理類別型及數值形式 外,更將數值正規化於 [0,1] 這個區間,而在 類別形式之間的距離稱為漢明距離(Hamming distance)。 • iDistance也是在多維度空間中尋找出最鄰近K個 的資料結構,將相似度相似的群組對應到單一個 維度,作為對應到某一部份資料之相關聯性。
多維度空間資料結構相關研究 • The Principal Component Analysis (PCA)演算法 是被廣泛的應用在高維度資料空間轉換成低維度 資料空間的一種技術,所以,當大部份分部較廣 的資料將由原來所處的維度空間被壓縮並轉換成 較低維度的資料,以方便儲存至高維度的樹狀 資料結構。
多維度空間資料結構概述 • 為了克服效率問題,建立多維索引為一可行 之設計,可以篩選不必要之計算。本論文將 採用indexing方法,現已有許多研究,查詢 k個 nearest neighbors (k-NN queries), 大多採用tree-based index 之R-tree系列。
距離矩陣概述 • 在計算兩不同類別屬性相似度時,我們利用 使用者定義方式,定訂出兩筆資料之不同 類別型態欄位,並利用我們提出之演算法 作轉換,計算轉換後兩兩不同類別屬性間 在同一欄位下之相似度。
定義對映表(Mapping Table) • 在定義距離矩陣的同時,我們必須定義 出矩陣中不同類別型,兩兩彼此間的 相似度數值,再對轉換的對映表做出 分析與評估。
對映演算法(Mapping Algorithm) • 本篇論文中提出一個新的轉換資料型態對映演算法,稱為最鄰近資料先選演算法。 • 做法:先找出距離矩陣中,兩兩類別屬性距離最大的 值放入空白對映表中,然後再從距離矩陣中剩餘的 類別屬性對映,找出兩個值距離最小者,再分別放入 對映表中先前放入的兩個最大值旁邊。最後再對距離 矩陣中剩餘的類別型態重覆上一步驟之處理,直到 距離矩陣中每一不同類別型態均被選取完畢。
結論 • 本研究主要內容在於類別型態資料轉換,開始 時定義出兩不同類別資料在同一欄位形成之 距離矩陣,並且根據距離矩陣的資料作對映 轉換,形成對映表,也就是處理類別資料型態 為數值資料型態,再根據所形成的對映表, 作一近似KNN索引資料模擬,算出由KNN 所擷取資料之準確率。
未來展望 • 本論文研究已解決類別型資料之轉換,並成功 的解釋,轉換後的各屬性間的相似距離,再 重新予以定義後,彼此間的相似程度可以獲得 肯定,進而可以沿用該演算,將資料存入多維 索引的資料結構,但是在處理轉換及引入模擬 索引架構時,仍存在一些問題,整理如下:
一、在提出之演算法中,由於在組合成對映表期間,所以估計一、在提出之演算法中,由於在組合成對映表期間,所以估計 區域性組合有較佳之結果,但在全域性組合上結果就不一定會 較佳,未來將會試著提出另一種不同組合方式之演算法,用以 比較是否在全域組成之對映表中,有較佳之準確度。 二、在完成對映表後,由於導入索引模擬資料結構中之對映表, 各個屬性位置是採用平均位置導入,各個輸入對照位置也是按 順序給定位置,而彼此間的距離關係是正規化於0至1區間,並 按照算出兩兩類別間屬性之數值給定,但在這過程中,當對映表 對照回距離矩陣時,可能就會有些誤差,故未來希望能導入類似 類神經網路知識,將對映表作進一步的修正。
三、在做索引模擬時,當選取不同範圍值的時候,若真正放入三、在做索引模擬時,當選取不同範圍值的時候,若真正放入 高維度資料結構中,可能會對一筆新進資料該屬於哪一分類, 造成資料標界效應,這是未來希望加以改進的作。 • 四、目前工作對於類別資料形態處理已經完成,但對於時間序列 資料形態處理上還有問題,也許在索引架構中,可能導入權重 選取之觀念,亦是往後努力的目標之一。