370 likes | 511 Views
ניקוי מידע במחסני נתונים. סיון אלדור ארז אינגבר. דוגמא : חברת כרטיסי אשראי. אתם בעלי חברת אשראי להלן חלק ממאגר הלקוחות שלכם שמפרט את פרטי הלקוח, מצב האשראי והערות. מגיעה בקשה של לקוח חדש לכרטיס אשראי ,האם יתקבל ואיזה סיווג ?. ניקוי מידע במחסני נתונים. נושאי המצגת. מבוא למחסני נתונים
E N D
ניקוי מידע במחסני נתונים סיון אלדור ארז אינגבר
דוגמא : חברת כרטיסי אשראי אתם בעלי חברת אשראי להלן חלק ממאגר הלקוחות שלכם שמפרט את פרטי הלקוח, מצב האשראי והערות מגיעה בקשה של לקוח חדש לכרטיס אשראי ,האם יתקבל ואיזה סיווג ? ניקוי מידע במחסני נתונים
נושאי המצגת • מבוא למחסני נתונים • בעיית ניקוי המידע • שלבים עיקריים בניקוי מידע • בעיית הכפילות בנתונים (מיזוג ומחיקה) • אלגוריתמים מרכזיים לפתרון - שיטת הסביבה הממוינת - גישת מספר המעברים Incremental Merge/Purge - • השוואה קצרה בין השיטות • המשך העבודה ניקוי מידע במחסני נתונים
Knowledge Pattern Evaluation Data Mining Task-relevant Data Data Warehouse Selection Data Cleaning Data Integration Databases Data Warehouse • מאגר מידע שנאסף ממספר מאגרים שונים ונשמר תחת סכמה אחידה • אוסף של מידע המשמש לצורך תהליכי קבלת החלטות • כלל התהליכים של הוצאת ,שינוי ואחזור המידע והגישה אליו על ידי משתמשי הקצה. ניקוי מידע במחסני נתונים
שלבים עיקריים בטיפול במחסני נתונים • 1. השגת המידע • 2. איחוד סכמות – העברה למאגר מידע יחיד • 3. הכנות לניקוי המידע • 4. ניקוי וטיפול בנתונים • 5. התאמה לפורמט הרצוי • 6. העברה למחסן הנתונים ניקוי מידע במחסני נתונים
הבעיה "Through 2005, more than 50 percent of data warehouse efforts that integrate data from multiple systems will fail as a result of lack of attention to data-quality issues,"senior research analyst Ted Friedman said. "Poor quality of data is a primary reason that most large enterprises do not get the return on investment they are seeking from their business intelligence strategies," he added. הבעיה מתחלקת לשתי רמות : -רמת סכמה - הדרך שבה הנתונים מוגדרים (MetaData) - רמת הנתונים ניקוי מידע במחסני נתונים
המטרה • אפשרות לאחד מידע ממקורות שונים דוגמא : • צמצום ההסתברות לקבלת החלטה שגויה עקב מידע לא תקין. ניקוי המידע : גילוי ,הסרת טעויות וחוסר עקביות במידע ע"מ לשפר את איכותו ניקוי מידע במחסני נתונים
בעייתיות בניקוי מקור אחד רמת הסכמה רמת הנתונים • נתונים לא חוקיים מחוץ לתחום המוגדר • הפרת תלות מוגדרת בין שדות • הפרת ייחודיות המידע • הפרת שלמות המידע • שגיאות כתיב • ערכים חסרים • קודים וקיצורים • שדות מלל חופשי • הזנת נתונים שגויה • הפרת תלות בין שדות • רשומות משוכפלות • רשומות סותרות • נתונים שגויים ניקוי מידע במחסני נתונים
בעייתיות בניקוי מקורות רבים רמת הסכימה רמת הנתונים • סתירה בשמות השדות: 1.הוֹמוֹנִים- מילה זהה בכתיב ובהיגוי אך שונה במשמעות (ציוד- מחשבים \ שולחנות) 2. סִינוֹנִים - מִלָּה נִרְדֶּפֶת (לָקוֹחַ, צַרְכָן) • סתירה במבנה הנתונים: • הצגת שדות בצורה שונה , מבנה שונה, • סוגי מידע שונים, אילוצי שלמות • אוסף הבעיות ממקור אחד • ערכים שונים לשדה (M , F \ 0 , 1) • תרגום ערכים שונה (דולר \ יורו) • רמות הקבצה שונות )מכירת מוצר \ מוצרים( • מידע בנקודות זמן שונות )מכירות של אתמול \ שבוע שעבר(
בעייתיות בניקוי מקורות רבים מבנה שונה CUSTOMER שמות שונים לשדות רמת הקבצה שונה ערכים שונים מבנה שונה CLIENT ניקוי מידע במחסני נתונים
בעייתיות בניקוי מקורות רבים Merge& Purge : שיטה לטיפול בנתונים חופפים מבחינה סמנטית : ביטול רשומות חופפות – Purge איחוד רשומות משלימות - Merge ניקוי מידע במחסני נתונים
שלבים עיקרים בניקוי מידע ניתוח המידע ניקוי מידע במחסני נתונים
ניתוח המידע המטרה: • זיהוי טעויות וחוסר עקביות בנתונים • זיהוי המידע על המידע (Metadata) שתי שיטות עיקריות כריית נתונים ( Data Mining) יצירת תרשים נתונים ( Data Profiling ) ניקוי מידע במחסני נתונים
יצירת תרשים נתונים data profiling ניתוח תכונות ע"מ לקבל מידע : סוג המידע ,טווח ערכים מותר ,מספר ערכים חסרים ,שונות בנתונים תבניות אופייניות למחרוזות תווים ,ייחודיות ערכים וכו'.... ניקוי מידע במחסני נתונים
Seed 1 Seed 2 x2 Seed 3 x1 כריית נתונים data mining • חיפוש דפוסי \ תבניות מידע ע"מ להשלים ערכים חסרים • זיהוי ותיקון ערכים שגויים • יצירת תרשים נתונים ניקוי מידע במחסני נתונים
שלבים עיקרים בניקוי מידע ניתוח המידע קביעת כללי מיזוג ומיפוי ניקוי מידע במחסני נתונים
קביעת כללי מיפוי ומיזוג הסרת טעויות וחוסר עקביות ברמת הנתונים והכנתם למיזוג גם ברמת הסכימה • שלב ראשון : חילוץ ערכים משדות מלל חופשי • הפרדת ערכי שדות להשגת דיוק רב יותר בנתונים • זיהוי תכונות זהות , כפילויות במידע ניקוי מידע במחסני נתונים
קביעת כללי מיפוי ומיזוג • שלב שני: תיקון שגיאות ואשרור – בדיקת שגיאות לכל תכונה • שגיאות כתיב – שימוש במילונים לטובת תיקון • נכונות המידע - שימוש במילונים מקצועיים ושדות , חיפה = 04 • תלות בין הנתונים ,גיל – יום הולדת וכו.. ניקוי מידע במחסני נתונים
קביעת כללי מיפוי ומיזוג • שלב שלישי: העברת המידע לתקן אחיד • נרמול ערכים • החלפה לאותיות גדולות / קטנות • העברת תאריכים לפורמט אחיד • שימוש במילונים מיוחדים / בכללים קבועים מראש ע"מ להביא לצורה אחידה את כל הקיצורים והקודים במידע (0= זכר , 1= נקבה) באיחוד מספר מאגרי מידע יש צורך לבצע תהליכים גם ברמת הסכימה : מיזוג או הפרדת שדות והסרת מידע חופף ניקוי מידע במחסני נתונים
שלבים עיקרים בניקוי מידע ניתוח המידע קביעת כללי מיזוג ומיפוי אשרור העברת המידע ל DW העברת המידע חזרה למאגרים ניקוי מידע במחסני נתונים
purge & merge • אלגוריתמים למחיקת כפילויות • Sorted Neighbors Method (SNM) • Multi Pass Approach • Incremental Approach - Prime Representatives method ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) • יצירת מפתח • מיון הרשומות לפי המפתח • מיזוג ומחיקת רשומות ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) יצירת המפתח בכל רשומה על ידי חילוץ השדות הרלוונטיים דוגמא : ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) מיון הרשומות לפי המפתח שנבחר לכל רשומה O(N log N)- זמן המיון יחסית ארוך ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) מיזוג הרשומות • הזזת חלון בגודל Wקבוע באופן רציף על כל הרשומות • כל פעם שנכנסת רשומה חדשה לחלון היא נבדקת אל מול שאר הרשומות בחלון • התהליך הנו היקשי ומשתמש במערכת כללים על מנת להשוות בין הרשומות ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) • בעייתיות הדורשת כלל הכרעה: • שני שמות מאיותים בצורה דומה והכתובת זהה שתי הרשומות עלולות לייצג אותו אדם • מספר תעודת הזהות זהה אך השם והכתובת שונים לחלוטין שתי הרשומות עלולות לייצג אותו אדם ששינה כתובת שתי הרשומות עלולות לייצג שני אנשים שונים לחלוטין והטעות נובעת ממספרי תעודות הזהות Given two records, r1 and r2 IF the last name of r1 equals the last name of r2, AND the first names differ slightly, AND the address of r1 equals the address of r2 THEN r1 is equivalent to r2 ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) הבעיה בשיטה החלק הראשון במפתח משפיע יותר מחלקו השני רשומות כמעט זהות, בהן המפתח שונה בספרה הראשונה ימוינו רחוק אחד מן השני • הפתרון • הרחבת חלון הסריקה • גישת מספר המעברים multi pass approach מעברים בלתי תלויים עם מפתחות שונים שימוש בחלון מיזוג קטן הפעלת כלל סגירות טרנזיטיבית על תוצאות המיזוג ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) IFA implies BANDB implies C THENA implies C ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) Multi-Pass approach ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) Incremental approach הבעיה:עדכון נתונים בצורה רציפה הגעת מידע חדש דורשת הרצת אלגוריתם על כל המחסן פעילות זו יקרה מאוד מבחינת זמן ומקום אחסון הפתרון : The Prime Representatives method • בחירת רשומות מייצגות עבור כל קבוצה • איחוד נציגי הקבוצות עם המידע החדש • הרצת "מספר מעברים " וקיבוץ המידע • איחוד הקבוצות מחדש ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) Incremental approach ניקוי מידע במחסני נתונים
purge & merge Sorted-Neighborhood Method (SNM) Incremental approach שיטות לבחירת רשומות מייצגות : • דגימה אקראית random sample • לפי זמן הכניסה לקבוצה N-Latest • הכללה generalization • בחירת הרשומה הגדולה או המפורטת ביותר Syntactic • הרשומה שהתאימה לרב הרשומותUtility • הנחות • כלל שנקבע עבור מחסן נתונים נשאר קבוע בכל איטרציה • הרשומות המייצגות שעליהן התבסס תהליך ההקבצה לא ימחקו ניקוי מידע במחסני נתונים
לסיכום • שיטת ה Sorted-Neighborhood Method יקרה בגלל הצורך במיון • שיטת multi-pass מובילה לתוצאות מדויקות וטובות יותר • זמן ההרצה הכולל עבור שיטת ה incremental קצר יותר TAKEN FROM : “Real world data is dirty - data cleansing and the merge/purge problem”,Mauricio A.Hernandez , Salvatore J.Stolfo ניקוי מידע במחסני נתונים
לסיכום TAKEN FROM : “An incremental merge/purge procedure”, Mauricio A.Hernandez , Salvatore J.Stolfo ניקוי מידע במחסני נתונים
לסיכום – מה הלאה ? עבודתנו תתמקד בהשוואת האלגוריתמים השונים על פי קריטריונים כגון: • רמת הדיוק • מהירות עיבוד נתוני המאגר הראשון והוספת מאגרים חדשים • מספר הקבוצות שנוצרות כפונקציה של כללי בחירה וגודל חלון חלוקת המידע ניקוי מידע במחסני נתונים
THE END תודה רבה !!