1 / 55

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی. نام دانشجو: علی عبدلی اساتيد داور: آقای دکتر مينايي، آقای دکتر ميبدی استاد راهنما: آقای دکتر عبداله‌زاده. فهرست. مقدمه. مقدمه. رکوردهای تکراری عبارتند از بازنمايي‌های متفاوت از يک موجوديت در جهان واقع.

torn
Download Presentation

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی نام دانشجو: علی عبدلی اساتيد داور: آقای دکتر مينايي،آقای دکتر ميبدی استاد راهنما: آقای دکتر عبداله‌زاده

  2. فهرست

  3. مقدمه مقدمه • رکوردهای تکراری عبارتند از بازنمايي‌های متفاوت از يک موجوديت در جهان واقع. • شناسايي رکوردهای تکراری، يافتن موجوديت‌های يکسان با بازنمايي‌های متفاوت است.

  4. مقدمه کاربردهای يافتن رکوردهای تکراری • تشخيص رکوردهای تکراری در کاربردهای زير مطرح است • يکپارچه‌سازی داده‌ها • Similarity Query • پاکسازی داده‌ها

  5. مقدمه يکپارچه‌سازی داده‌ها • اطلاعات مربوط به موجوديت‌ها در منابع داده‌ای متفاوت ذخيره شده‌اند. • لازم است اطلاعات مربوط به يک موجوديت از منابع اطلاعاتی مختلف گردآوری شود. پايگاه داده حقوق و دستمزد پايگاه داده دانشگاه پايگاه داده رفاه کارکنان

  6. مقدمه Similarity Query • در گروهی از پايگاه‌های داده امکان تطبيق داده‌ها با درخواست کاربر وجود ندارد. • به عنوان مثال در يک موتور جستجو • يافتن متون مربوط به درخواست کاربر. • يافتن موجوديت با شباهت بيشتر

  7. مقدمه پاکسازی داده‌ها • اطلاعات با کيفيت پايين سبب کاهش کارايي سازمان‌ها و تصميمات اشتباه • اطلاعات با کيفيت پايين عبارتند از • اطلاعات تکراری • غلط‌های املايي و با نمايش اشتباه • وجود داده‌های تکراری باعث • گزارشات اشتباه و در نتيجه تصميمات اشتباه • فرستادن چندين ايميل يکسان برای يک مشتری • هزينه نگهداری داده‌های اضافی برروی رسانه

  8. مقدمه پيش‌پردازش • تبديل داده‌ها به رکورد • استخراج ويژگی از صفحات وب، تصاوير، فيلم‌ها • رکوردها برای آنکه قابل مقايسه شوند، بايد استانداردسازی، پارس يا تبديل به داده‌های جديد شوند.

  9. کارهای گذشته روش‌ها و رويکردها در يافتن داده‌های تکراری • در تشخيص داده‌های تکراری، داده‌ها به شکل زير مدل می‌شوند • ساختار • مقدار • روش‌ها با توجه به اين که شباهت ميان ساختار و يا مقدار و يا هر دو را در نظر بگيرند، به دسته‌ها مختلف تقسيم می‌شوند.

  10. کارهای گذشته روش‌ها و رويکردها در يافتن داده‌های تکراری...

  11. کارهای گذشته روش‌های برپايه ساختار و ترکيبی • روش‌های برپايه ساختار و ترکيبی • داده‌ها دارای ساختار هستند

  12. کارهای گذشته روش‌های برپايه مقدار • در اين روش‌ها، شباهت با توجه به مقدار داده‌ها مقايسه می‌شود و شباهت‌های ساختاری در نظر گرفته نمی‌شود. • در مقايسه رکوردها از روش‌های برپايه مقدار استفاده می‌شود زيرا: • رکوردها دارای ساختار يکسانی هستند. • در مرحله پيش‌پردازش فيلدهای قابل مقايسه استخراج شده است.

  13. کارهای گذشته روش‌های مقايسه فيلد • در اين روش‌ها شباهت ميان فيلدها اندازه‌گيری می‌شود. • تابع شباهت، تابعی است که شباهت ميان دو فيلد را اندازه‌گيری کرده و به صورت عددی بين صفر و يک بيان می‌کند. محمد علی F(x,y)=0.7 محمد

  14. کارهای گذشته روش‌های مقايسه فيلد… • روش‌ها مقايسه فيلد به دو دسته تقسيم می‌شوند • برپايه کاراکتر • شباهت بر اساس کاراکترها • برپايه توکن • در صورت تغييرات در سطح کلمات تشکيل دهنده فيلد، روش‌های برپايه کاراکتر دارای کارايي مناسب نيستند. • مقايسه فيلد • برپايه توکن شنبه F(x,y)=0.7 • برپايه کاراکتر دوشنبه تهران، خيابان حافظ، دانشگاه اميرکبير F(x,y)=0.8 دانشگاه اميرکبير، ايران، تهران، خيابان حافظ

  15. کارهای گذشته روش‌های تجميعی • در روش‌های تجميعی ميزان شباهت کل رکورد اندازه‌گيری می‌شود. • اين روش‌ها به دو دسته زير دسته‌بندی می‌شوند • روش‌های برپايه فرمول‌های جبری • روش‌های هوشمند

  16. کارهای گذشته روش‌های برپايه فرمول‌های جبری • در روش‌های برپايه فرمول‌های جبری رويکردهای متفاوتی وجود دارد • جمع وزن‌دار شباهت فيلدها • تبديل کل رکورد به يک فيلد • ... • مشکل تعيين حدود آستانه • بهترين کارايي در حدود 90%

  17. کارهای گذشته روش‌های هوشمند • استفاده از الگوريتم‌های يادگيری ماشين • آموزش با استفاده از داده • استفاده از مدل برای داده‌های تستی • مزايا • کمترين دخالت انسان • بالاترين کارايي

  18. کارهای گذشته مراحل روش‌های هوشمند • تشکيل بردار ويژگی با استفاده از مقايسه فيلد به فيلد يکسان يا غيريکسان شباهت 1 شباهت 2 ... شباهت n

  19. کارهای گذشته مراحل روش‌های هوشمند... مجموعه داده 1 مجموعه داده 2 مقايسه دوبه‌دو تعدادی از رکوردها و برچسب‌زنی فرد خبره استفاده از تابع شباهت و تشکيل بردار ويژگی استفاده از يک مدل برای يادگيری داده‌های برچسب‌دار استفاده از مدل آموزش ديده برای برچسب‌گذاری ساير رکوردها

  20. کارهای گذشته روش‌های هوشمند... • Andrew McCallum • ارائه مدل‌های بيزين و شبکه‌های بيزی و مدل‌های احتمالی • ارائه مجموعه داده‌های مرجع • Ahmed Elmagarmid • ارائه survey از تمامی روش‌ها و رويکردهای موجود • VassiliosVerykios • استفاده از روش‌های استخراج قوانين به صورت اتوماتيک • SunitaSarawagi • استفاده از روش‌های يادگيری فعال • DebabrataDey • تشخيص رکوردهای تکراری به صورت برخط • Huimin Zhao • ترکيب دسته‌بندی‌کننده‌های مختلف

  21. کارهای گذشته مزايا و معايب روش‌های موجود

  22. روش پيشنهادی مشکل 1: در نظر نداشتن شباهت معنايي • روش‌های مقايسه فيلد تنها می‌توانند شباهت رشته‌ای و يا شباهت‌های تلفظی ميان فيلدها را تعيين کنند. • در بسياری از موارد فيلدها دارای شباهت رشته‌ای نيستند ولی دارای ارتباط با يکديگر می‌باشند. کتاب اتومبيل کتابچه خودرو

  23. روش پيشنهادی ارتباط معنايي… • دو رکورد زير به يک موجوديت در جهان واقع اشاره می‌کنند ولی فيلدها دارای هيچ شباهت رشته‌ای نيستند.

  24. روش پيشنهادی گراف معنايي • گراف ابزاری برای نشان دادن ارتباط ميان مفاهيم موجود در کلمات • استفاده از گراف معنايي برای بازنمايي و آناليز لغوی • هر نود نشاندهنده يک مفهوم است. • مفاهيم مرتبط با يک يال به يکديگر متصل می‌شوند.

  25. روش پيشنهادی گراف معنايي... موجوديت جاندار شي ... انسان حيوان ... خودرو فرمان چرخ دنده

  26. روش پيشنهادی شباهت معنايي • روش‌های متفاوتی برای تعيين شباهت معنايي ميان مفاهيم وجود دارد • تعداد گره‌های کوتاهترين مسير • جمع يا ضرب وزن‌دار يال‌های کوتاهترين مسير • بزرگترين فاصله تا پدر مشترک

  27. روش پيشنهادی ارائه تابع شباهت معنايي • استفاده از تابع شباهت معنايي به تنهايي نمي‌تواند نشاندهنده ارتباط ميان فيلدها باشد. • فيلدها ممکن است دارای خطاهای رشته‌ای باشند. • بعضی از فيلدها مثل فيلد نام، دارای هيچ مفهومی نيست. • استفاده از شباهت رشته‌ای و معنايي

  28. روش پيشنهادی ارائه تابع شباهت معنايي... مجموعه داده 1 مجموعه داده 2 شباهت 1 شباهت 2 مقايسه دوبه‌دو تعدادی از رکوردها و برچسب‌زنی ... شباهت n يکسان يا غيريکسان استفاده از تابع شباهت و تشکيل بردار ويژگی استفاده از يک مدل برای يادگيری داده‌های برچسب‌دار 28 28 استفاده از مدل آموزش ديده برای برچسب‌گذاری ساير رکوردها

  29. روش پيشنهادی مشکل 2: استفاده از تابع شباهت مناسب • توابع شباهت متفاوت برای مجموعه داده‌های متفاوت • به عنوان مثال: • داده‌هاي سيستم بازشناسی گفتار دارای شباهت‌های تلفظی هستند. • داده‌هايصفحات وب دارای خطاهای املايي هستند. اعتياد احتياط تاهل تعحل

  30. روش پيشنهادی مشکل 2: استفاده از تابع شباهت مناسب... • لزوم استفاده از چندين تابع شباهت به صورت همزمان • به عنوان مثال ترکيب شباهت معنايي و رشته‌ای • بردار ويژگی با استفاده از اين توابع ايجاد می‌شود • تاثير برروی کارايي الگوريتم‌های هوشمند

  31. روش پيشنهادی ارائه روشی برای تعيين تابع شباهت • تابع شباهتی حاصل از ترکيب توابع شباهت کانديد sim 1 فيلد 1 از رکورد 1 w1 sim 2 Similarity w2 فيلد 1 از رکورد 2 … wn sim n

  32. روش پيشنهادی ارائه روشی برای تعيين تابع شباهت... • وزن‌ها نشاندهنده اهميت هر يک از توابع شباهت هستند. • وزن‌های بالاتر نشاندهنده اهميت بيشتر تابع شباهت متناظر شده است. • در روش‌های هوشمند، خروجی توابع شباهت برای هر فيلد برای ساخت بردار شباهت استفاده می‌شود. sim 1 فيلد 1 از رکورد 1 w1 sim 2 w2 فيلد 1 از رکورد 2 … wn sim n

  33. روش پيشنهادی ارائه روشی برای تعيين تابع شباهت... sim 1 sim 1 w1 w1 sim 2 sim 2 w2 w2 … … wn wn sim n sim n

  34. روش پيشنهادی تخمين وزن‌ها • وزن‌ها بايد به‌گونه‌ای تعيين شود که کارايي الگوريتم‌های هوشمند بيشينه شود. F(w1 , … , wn ) w1 محاسبه کارايي الگوريتم برای زير مجموعه‌ای از داده‌های آموزشی w2 کارايي الگوريتم ... wn

  35. روش پيشنهادی تخمين وزن‌ها ... • وزن‌ها بايد به شکلی تعيين شوند که F(w1 , … , wn )بيشينه شود. • برای اين کار اين تابع را توسط يکی از الگوريتم‌های تکاملی مثل الگوريتم ژنتيک استفاده می‌شود.

  36. روش پيشنهادی الگوريتم تعيين توابع شباهت مجموعه داده 1 مجموعه داده 2 • مرحله 1: تخمين وزن‌ها انتخاب زير مجموعه‌ای از داده‌ها و مجموعه‌ای از توابع شباهت و وزن‌های اوليه تشکيل بردار شباهت با استفاده از وزن‌ها بهينه‌سازی توسط الگوريتم‌های تکاملی استفاده از يک مدل يادگير و اندازه گيری کارايي تخمين وزن‌های مناسب و حذف توابع شباهت نامناسب

  37. روش پيشنهادی الگوريتم تعيين توابع شباهت... مجموعه داده 1 مجموعه داده 2 • مرحله 2: استفاده از وزن‌ها مقايسه دوبه‌دو تعدادی از رکوردها و برچسب‌زنی sim 1 sim 1 استفاده از تابع شباهت و تشکيل بردار ويژگی w1 w1 sim 2 sim 2 w2 w2 استفاده از يک مدل برای يادگيری داده‌های برچسب‌دار … … wn wn sim n sim n

  38. آزمايشات معيارهای ارزيابی • دقت: • يادآوری: • F-measure:

  39. آزمايشات داده‌های آزمايش • داده رستوران • در اکثر مقالات به عنوان داده مرجع استفاده می‌شود. • اطلاعات مربوط به رستوران‌ها که از دو وب‌سايت تهيه شده است. • اطلاعات مربوط به تعدادی از اين رستوران‌ها در هر دو وب سايت وجود دارد. • فيلدها دارای معنی هستند. • نوع و شهر

  40. آزمايشات داده‌های آزمايش... • Cora: • توسط Andrew McCallumايجاد شده و از جمله داده‌های مرجع • اطلاعات مربوط به مقالات در پايگاه داده‌های متفاوت است. • شامل: نام نويسنده، جلد، عنوان، موسسه، محل برگزاری، آدرس، ناشر، سال، تعداد صفحات، ويرايشگر، يادداشت، ماه.

  41. آزمايشات شرايط آزمايشات • توابع شباهت رشته‌ای مورد استفاده: • Jaro: • تعداد کاراکترهای مشترک و تعداد جابه‌جايي‌ها برای تساوی دو رکورد را اندازه می‌گيرد. • Soundex: • شباهت‌های تلفظی ميان رشته‌ها را اندازه می‌گيرد. • کاراکترهای با تلفظ مشابه را به کد تبديل می‌شود، کدها به صورت رشته‌ای با يکديگر مقايسه می‌شوند. • Levenshtein: • تعداد کاراکترهايي که بايد حذف، درج يا تغيير کنند تا دو رشته به يکديگر تبديل شوند. • Q-grams: • تعداد سری کاراکترهای مشترک • اين توابع از جمله توابع مرجع در يافتن شباهت رشته‌ای هستند.

  42. آزمايشات شرايط آزمايشات .. • برای دسته‌بندی از مدل‌های زير استفاده شده است: • Naïve Bayes • BayesNet • J48 • RBF • Multi Layer Perceptron • Voted Perceptron • ADTree • دسته‌بندی کننده‌های فوق دارای بالاترين کارايی در مقالات هستند

  43. آزمايشات آزمايش 1: استفاده از تابع شباهت معنايي بر روی داده رستوران

  44. آزمايشات آزمايش 1: استفاده از تابع شباهت معنايي بر روی داده رستوران...

  45. آزمايشات آزمايش 2: کاهش تعداد داده‌های آموزشی • کاهش تعداد داده‌های آزمايشی از 700 به 200

  46. آزمايشات آزمايش 3: تعيين توابع شباهت مناسب • ميانگين کارايي تمامی دسته‌بندی‌کننده‌ها برای هر يک از توابع شباهت برروی داده رستوران

  47. آزمايشات آزمايش 3: تعيين توابع شباهت مناسب • ميانگين کارايي تمامی دسته‌بندی‌کننده‌ها برای هر يک از توابع شباهت برروی داده Cora

  48. نتيجه‌گيری خلاصه و نتيجه‌گيری • در بسياری از کاربردها يافتن رکوردهای تکراری مطرح است • يکپارچه‌سازی داده • پالايش داده • Similarity Query • تابع شباهتی ارائه شد که شباهت معنايي ميان مفاهيم را اندازه‌گيری می‌کند. • شباهت معنايي با استفاده از آناليز لغوی فيلدها اندازه‌گيری می‌شود. • برای بازنمايي و آناليز معنايي، از گراف معنايي استفاده می‌شود. • تابع شباهتجديد برروی داده‌های مرجع آزمايش شد • استفاده از تابع شباهت جديد سبب افزايش کارايي دسته‌بندی‌کننده‌ها می‌شود. • تابع شباهت نسبت به کاهش تعداد داده‌های آزمايشی پايدارتر است.

  49. نتيجه‌گيری خلاصه و نتيجه‌گيری ... • تعيين تابع شباهت مناسب يکی از مشکلات يافتن رکوردهای تکراری است • روشی ارائه شد که ميزان اهميت هر يک از توابع شباهت با توجه به مجموعه داده‌های متفاوت را محاسبه می‌کند. • روش ارائه شده برروی مجموعه داده‌های استاندارد آزمايش شد. • آزمايشات نشان می‌دهد با تعيين تابع شباهت مناسب • محاسبات کمتر • کارايي بالاتر

  50. نتيجه‌گيری کارهای آينده • استفاده از تابع شباهت معنايي در ساير روش‌ها • تاثير استفاده از تابع شباهت معنايي را می‌توان در ساير روش‌ها مثل روش‌های برپايه فاصله و يا خوشه‌بندی کننده‌ها بررسی کرد. • تعيين توابع شباهت مناسب برای هر يک از صفات • می‌توان اهميت توابع شباهت را برای هر يک از صفات در نظر گرفت و وزن‌ها با توجه به صفات تخمين زده شوند.

More Related