1 / 20

KNN 應用之種類型資料 對映演算法

KNN 應用之種類型資料 對映演算法. 指導教授:郭煌政 博士 研究生:林奕森 資四甲 張文馨 簡辰珈. 摘要. 基於記憶推理是一種運用廣泛的資料探勘技術,要 預測新進案例時,必須與資料集中的案例一一計算 距離,再找出鄰近的 k 筆案例,最後利用這些案例 推理出新進案例。 以索引架構模擬多維度空間索引資料結構來確定 對映準確度,去計算同欄位間不同類別的彼此之 相似度,這個轉換之方式經實驗證實可以有效的 指出兩個類別彼此之相似度,可以有效減少搜尋 時間,及資料屬性相似度之準確性。. 研究目的

gita
Download Presentation

KNN 應用之種類型資料 對映演算法

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. KNN應用之種類型資料對映演算法 指導教授:郭煌政 博士 研究生:林奕森 資四甲 張文馨 簡辰珈

  2. 摘要 • 基於記憶推理是一種運用廣泛的資料探勘技術,要 預測新進案例時,必須與資料集中的案例一一計算 距離,再找出鄰近的k筆案例,最後利用這些案例 推理出新進案例。 • 以索引架構模擬多維度空間索引資料結構來確定 對映準確度,去計算同欄位間不同類別的彼此之 相似度,這個轉換之方式經實驗證實可以有效的 指出兩個類別彼此之相似度,可以有效減少搜尋 時間,及資料屬性相似度之準確性。

  3. 研究目的 MBR技術之相關概述 MBR技術之相關應用 MBR技術優缺點評析 多維度空間資料結構 相關研究 多維度空間資料結構 概述 距離矩陣概述 定義對映表 (Mapping Table) 對映演算法 (Mapping Algorithm) 結論 未來展望 大綱

  4. 研究目的 • 除了利用MBR強大的分類及預測功能外,更 希望藉由演算法,對兩筆記錄資料中的欄位 作位置順序之比對。 (對種類資料轉換為數值資料形態,進而利用 一些高維度的樹狀資料結構,模擬索引機制 使用近似KNN技術,比對新進資料與訓練 資料集在轉換後的準確度。)

  5. MBR技術之相關概述 • MBR 除了大家比較熟知方法,如使用一些 參數函數去做每筆紀錄運算外,還可以使用 一些統計方面的相關技術去做分類,如 線性回歸等等。

  6. MBR領域之相關應用 • MBR已經被成功的應用在一些範圍上的分類 ,早期亦與類神經網路或是人工智慧方面的 應用結合,近期則是為了紀錄與預測顧客購買 商品的行為模式,而和商業技術應用結合。 • MBR利用已知的training dataset 來推斷未知 的模型。

  7. MBR技術優缺點評析 • MBR之優點 • 分類結果易於推論 • 幾乎可以處理任何形式的資料 • 輸入欄位數量並不影響決定性 • 訓練資料集易於建立

  8. MBR技術優缺點評析 • MBR 之缺點 • 預測階段計算複雜 • 訓練資料集必須數量足夠 • 設定不同距離、組合函數有不同結果

  9. 多維度空間資料結構相關研究 • Aha提出的演算法是一種基於增加案例的學習 演算法,除了可以同時處理類別型及數值形式 外,更將數值正規化於 [0,1] 這個區間,而在 類別形式之間的距離稱為漢明距離(Hamming distance)。 • iDistance也是在多維度空間中尋找出最鄰近K個 的資料結構,將相似度相似的群組對應到單一個 維度,作為對應到某一部份資料之相關聯性。

  10. 多維度空間資料結構相關研究 • The Principal Component Analysis (PCA)演算法 是被廣泛的應用在高維度資料空間轉換成低維度 資料空間的一種技術,所以,當大部份分部較廣 的資料將由原來所處的維度空間被壓縮並轉換成 較低維度的資料,以方便儲存至高維度的樹狀 資料結構。

  11. 多維度空間資料結構概述 • 為了克服效率問題,建立多維索引為一可行 之設計,可以篩選不必要之計算。本論文將 採用indexing方法,現已有許多研究,查詢 k個 nearest neighbors (k-NN queries), 大多採用tree-based index 之R-tree系列。

  12. 距離矩陣概述 • 在計算兩不同類別屬性相似度時,我們利用 使用者定義方式,定訂出兩筆資料之不同 類別型態欄位,並利用我們提出之演算法 作轉換,計算轉換後兩兩不同類別屬性間 在同一欄位下之相似度。

  13. 定義對映表(Mapping Table) • 在定義距離矩陣的同時,我們必須定義 出矩陣中不同類別型,兩兩彼此間的 相似度數值,再對轉換的對映表做出 分析與評估。

  14. 對映演算法(Mapping Algorithm) • 本篇論文中提出一個新的轉換資料型態對映演算法,稱為最鄰近資料先選演算法。 • 做法:先找出距離矩陣中,兩兩類別屬性距離最大的 值放入空白對映表中,然後再從距離矩陣中剩餘的 類別屬性對映,找出兩個值距離最小者,再分別放入 對映表中先前放入的兩個最大值旁邊。最後再對距離 矩陣中剩餘的類別型態重覆上一步驟之處理,直到 距離矩陣中每一不同類別型態均被選取完畢。

  15. 評估三角不等式流程圖

  16. 結論 • 本研究主要內容在於類別型態資料轉換,開始 時定義出兩不同類別資料在同一欄位形成之 距離矩陣,並且根據距離矩陣的資料作對映 轉換,形成對映表,也就是處理類別資料型態 為數值資料型態,再根據所形成的對映表, 作一近似KNN索引資料模擬,算出由KNN 所擷取資料之準確率。

  17. 未來展望 • 本論文研究已解決類別型資料之轉換,並成功 的解釋,轉換後的各屬性間的相似距離,再 重新予以定義後,彼此間的相似程度可以獲得 肯定,進而可以沿用該演算,將資料存入多維 索引的資料結構,但是在處理轉換及引入模擬 索引架構時,仍存在一些問題,整理如下:

  18. 一、在提出之演算法中,由於在組合成對映表期間,所以估計一、在提出之演算法中,由於在組合成對映表期間,所以估計 區域性組合有較佳之結果,但在全域性組合上結果就不一定會 較佳,未來將會試著提出另一種不同組合方式之演算法,用以 比較是否在全域組成之對映表中,有較佳之準確度。 二、在完成對映表後,由於導入索引模擬資料結構中之對映表, 各個屬性位置是採用平均位置導入,各個輸入對照位置也是按 順序給定位置,而彼此間的距離關係是正規化於0至1區間,並 按照算出兩兩類別間屬性之數值給定,但在這過程中,當對映表 對照回距離矩陣時,可能就會有些誤差,故未來希望能導入類似 類神經網路知識,將對映表作進一步的修正。

  19. 三、在做索引模擬時,當選取不同範圍值的時候,若真正放入三、在做索引模擬時,當選取不同範圍值的時候,若真正放入 高維度資料結構中,可能會對一筆新進資料該屬於哪一分類, 造成資料標界效應,這是未來希望加以改進的作。 • 四、目前工作對於類別資料形態處理已經完成,但對於時間序列 資料形態處理上還有問題,也許在索引架構中,可能導入權重 選取之觀念,亦是往後努力的目標之一。

  20. ~ end ~

More Related