تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی نام دانشجو: علی عبدلی اساتيد داور: آقای دکتر مينايي،آقای دکتر ميبدی استاد راهنما: آقای دکتر عبداله‌زاده

فهرست

مقدمه مقدمه • رکوردهای تکراری عبارتند از بازنمايي‌های متفاوت از يک موجوديت در جهان واقع. • شناسايي رکوردهای تکراری، يافتن موجوديت‌های يکسان با بازنمايي‌های متفاوت است.

مقدمه کاربردهای يافتن رکوردهای تکراری • تشخيص رکوردهای تکراری در کاربردهای زير مطرح است • يکپارچه‌سازی داده‌ها • Similarity Query • پاکسازی داده‌ها

مقدمه يکپارچه‌سازی داده‌ها • اطلاعات مربوط به موجوديت‌ها در منابع داده‌ای متفاوت ذخيره شده‌اند. • لازم است اطلاعات مربوط به يک موجوديت از منابع اطلاعاتی مختلف گردآوری شود. پايگاه داده حقوق و دستمزد پايگاه داده دانشگاه پايگاه داده رفاه کارکنان

مقدمه Similarity Query • در گروهی از پايگاه‌های داده امکان تطبيق داده‌ها با درخواست کاربر وجود ندارد. • به عنوان مثال در يک موتور جستجو • يافتن متون مربوط به درخواست کاربر. • يافتن موجوديت با شباهت بيشتر

مقدمه پاکسازی داده‌ها • اطلاعات با کيفيت پايين سبب کاهش کارايي سازمان‌ها و تصميمات اشتباه • اطلاعات با کيفيت پايين عبارتند از • اطلاعات تکراری • غلط‌های املايي و با نمايش اشتباه • وجود داده‌های تکراری باعث • گزارشات اشتباه و در نتيجه تصميمات اشتباه • فرستادن چندين ايميل يکسان برای يک مشتری • هزينه نگهداری داده‌های اضافی برروی رسانه

مقدمه پيش‌پردازش • تبديل داده‌ها به رکورد • استخراج ويژگی از صفحات وب، تصاوير، فيلم‌ها • رکوردها برای آنکه قابل مقايسه شوند، بايد استانداردسازی، پارس يا تبديل به داده‌های جديد شوند.

کارهای گذشته روش‌ها و رويکردها در يافتن داده‌های تکراری • در تشخيص داده‌های تکراری، داده‌ها به شکل زير مدل می‌شوند • ساختار • مقدار • روش‌ها با توجه به اين که شباهت ميان ساختار و يا مقدار و يا هر دو را در نظر بگيرند، به دسته‌ها مختلف تقسيم می‌شوند.

کارهای گذشته روش‌ها و رويکردها در يافتن داده‌های تکراری...

کارهای گذشته روش‌های برپايه ساختار و ترکيبی • روش‌های برپايه ساختار و ترکيبی • داده‌ها دارای ساختار هستند

کارهای گذشته روش‌های برپايه مقدار • در اين روش‌ها، شباهت با توجه به مقدار داده‌ها مقايسه می‌شود و شباهت‌های ساختاری در نظر گرفته نمی‌شود. • در مقايسه رکوردها از روش‌های برپايه مقدار استفاده می‌شود زيرا: • رکوردها دارای ساختار يکسانی هستند. • در مرحله پيش‌پردازش فيلدهای قابل مقايسه استخراج شده است.

کارهای گذشته روش‌های مقايسه فيلد • در اين روش‌ها شباهت ميان فيلدها اندازه‌گيری می‌شود. • تابع شباهت، تابعی است که شباهت ميان دو فيلد را اندازه‌گيری کرده و به صورت عددی بين صفر و يک بيان می‌کند. محمد علی F(x,y)=0.7 محمد

کارهای گذشته روش‌های مقايسه فيلد… • روش‌ها مقايسه فيلد به دو دسته تقسيم می‌شوند • برپايه کاراکتر • شباهت بر اساس کاراکترها • برپايه توکن • در صورت تغييرات در سطح کلمات تشکيل دهنده فيلد، روش‌های برپايه کاراکتر دارای کارايي مناسب نيستند. • مقايسه فيلد • برپايه توکن شنبه F(x,y)=0.7 • برپايه کاراکتر دوشنبه تهران، خيابان حافظ، دانشگاه اميرکبير F(x,y)=0.8 دانشگاه اميرکبير، ايران، تهران، خيابان حافظ

کارهای گذشته روش‌های تجميعی • در روش‌های تجميعی ميزان شباهت کل رکورد اندازه‌گيری می‌شود. • اين روش‌ها به دو دسته زير دسته‌بندی می‌شوند • روش‌های برپايه فرمول‌های جبری • روش‌های هوشمند

کارهای گذشته روش‌های برپايه فرمول‌های جبری • در روش‌های برپايه فرمول‌های جبری رويکردهای متفاوتی وجود دارد • جمع وزن‌دار شباهت فيلدها • تبديل کل رکورد به يک فيلد • ... • مشکل تعيين حدود آستانه • بهترين کارايي در حدود 90%

کارهای گذشته روش‌های هوشمند • استفاده از الگوريتم‌های يادگيری ماشين • آموزش با استفاده از داده • استفاده از مدل برای داده‌های تستی • مزايا • کمترين دخالت انسان • بالاترين کارايي

کارهای گذشته مراحل روش‌های هوشمند • تشکيل بردار ويژگی با استفاده از مقايسه فيلد به فيلد يکسان يا غيريکسان شباهت 1 شباهت 2 ... شباهت n

کارهای گذشته مراحل روش‌های هوشمند... مجموعه داده 1 مجموعه داده 2 مقايسه دوبه‌دو تعدادی از رکوردها و برچسب‌زنی فرد خبره استفاده از تابع شباهت و تشکيل بردار ويژگی استفاده از يک مدل برای يادگيری داده‌های برچسب‌دار استفاده از مدل آموزش ديده برای برچسب‌گذاری ساير رکوردها

کارهای گذشته روش‌های هوشمند... • Andrew McCallum • ارائه مدل‌های بيزين و شبکه‌های بيزی و مدل‌های احتمالی • ارائه مجموعه داده‌های مرجع • Ahmed Elmagarmid • ارائه survey از تمامی روش‌ها و رويکردهای موجود • VassiliosVerykios • استفاده از روش‌های استخراج قوانين به صورت اتوماتيک • SunitaSarawagi • استفاده از روش‌های يادگيری فعال • DebabrataDey • تشخيص رکوردهای تکراری به صورت برخط • Huimin Zhao • ترکيب دسته‌بندی‌کننده‌های مختلف

کارهای گذشته مزايا و معايب روش‌های موجود

روش پيشنهادی مشکل 1: در نظر نداشتن شباهت معنايي • روش‌های مقايسه فيلد تنها می‌توانند شباهت رشته‌ای و يا شباهت‌های تلفظی ميان فيلدها را تعيين کنند. • در بسياری از موارد فيلدها دارای شباهت رشته‌ای نيستند ولی دارای ارتباط با يکديگر می‌باشند. کتاب اتومبيل کتابچه خودرو

روش پيشنهادی ارتباط معنايي… • دو رکورد زير به يک موجوديت در جهان واقع اشاره می‌کنند ولی فيلدها دارای هيچ شباهت رشته‌ای نيستند.

روش پيشنهادی گراف معنايي • گراف ابزاری برای نشان دادن ارتباط ميان مفاهيم موجود در کلمات • استفاده از گراف معنايي برای بازنمايي و آناليز لغوی • هر نود نشاندهنده يک مفهوم است. • مفاهيم مرتبط با يک يال به يکديگر متصل می‌شوند.

روش پيشنهادی گراف معنايي... موجوديت جاندار شي ... انسان حيوان ... خودرو فرمان چرخ دنده

روش پيشنهادی شباهت معنايي • روش‌های متفاوتی برای تعيين شباهت معنايي ميان مفاهيم وجود دارد • تعداد گره‌های کوتاهترين مسير • جمع يا ضرب وزن‌دار يال‌های کوتاهترين مسير • بزرگترين فاصله تا پدر مشترک

روش پيشنهادی ارائه تابع شباهت معنايي • استفاده از تابع شباهت معنايي به تنهايي نمي‌تواند نشاندهنده ارتباط ميان فيلدها باشد. • فيلدها ممکن است دارای خطاهای رشته‌ای باشند. • بعضی از فيلدها مثل فيلد نام، دارای هيچ مفهومی نيست. • استفاده از شباهت رشته‌ای و معنايي

روش پيشنهادی ارائه تابع شباهت معنايي... مجموعه داده 1 مجموعه داده 2 شباهت 1 شباهت 2 مقايسه دوبه‌دو تعدادی از رکوردها و برچسب‌زنی ... شباهت n يکسان يا غيريکسان استفاده از تابع شباهت و تشکيل بردار ويژگی استفاده از يک مدل برای يادگيری داده‌های برچسب‌دار 28 28 استفاده از مدل آموزش ديده برای برچسب‌گذاری ساير رکوردها

روش پيشنهادی مشکل 2: استفاده از تابع شباهت مناسب • توابع شباهت متفاوت برای مجموعه داده‌های متفاوت • به عنوان مثال: • داده‌هاي سيستم بازشناسی گفتار دارای شباهت‌های تلفظی هستند. • داده‌هايصفحات وب دارای خطاهای املايي هستند. اعتياد احتياط تاهل تعحل

روش پيشنهادی مشکل 2: استفاده از تابع شباهت مناسب... • لزوم استفاده از چندين تابع شباهت به صورت همزمان • به عنوان مثال ترکيب شباهت معنايي و رشته‌ای • بردار ويژگی با استفاده از اين توابع ايجاد می‌شود • تاثير برروی کارايي الگوريتم‌های هوشمند

روش پيشنهادی ارائه روشی برای تعيين تابع شباهت • تابع شباهتی حاصل از ترکيب توابع شباهت کانديد sim 1 فيلد 1 از رکورد 1 w1 sim 2 Similarity w2 فيلد 1 از رکورد 2 … wn sim n

روش پيشنهادی ارائه روشی برای تعيين تابع شباهت... • وزن‌ها نشاندهنده اهميت هر يک از توابع شباهت هستند. • وزن‌های بالاتر نشاندهنده اهميت بيشتر تابع شباهت متناظر شده است. • در روش‌های هوشمند، خروجی توابع شباهت برای هر فيلد برای ساخت بردار شباهت استفاده می‌شود. sim 1 فيلد 1 از رکورد 1 w1 sim 2 w2 فيلد 1 از رکورد 2 … wn sim n

روش پيشنهادی ارائه روشی برای تعيين تابع شباهت... sim 1 sim 1 w1 w1 sim 2 sim 2 w2 w2 … … wn wn sim n sim n

روش پيشنهادی تخمين وزن‌ها • وزن‌ها بايد به‌گونه‌ای تعيين شود که کارايي الگوريتم‌های هوشمند بيشينه شود. F(w1 , … , wn ) w1 محاسبه کارايي الگوريتم برای زير مجموعه‌ای از داده‌های آموزشی w2 کارايي الگوريتم ... wn

روش پيشنهادی تخمين وزن‌ها ... • وزن‌ها بايد به شکلی تعيين شوند که F(w1 , … , wn )بيشينه شود. • برای اين کار اين تابع را توسط يکی از الگوريتم‌های تکاملی مثل الگوريتم ژنتيک استفاده می‌شود.

روش پيشنهادی الگوريتم تعيين توابع شباهت مجموعه داده 1 مجموعه داده 2 • مرحله 1: تخمين وزن‌ها انتخاب زير مجموعه‌ای از داده‌ها و مجموعه‌ای از توابع شباهت و وزن‌های اوليه تشکيل بردار شباهت با استفاده از وزن‌ها بهينه‌سازی توسط الگوريتم‌های تکاملی استفاده از يک مدل يادگير و اندازه گيری کارايي تخمين وزن‌های مناسب و حذف توابع شباهت نامناسب

روش پيشنهادی الگوريتم تعيين توابع شباهت... مجموعه داده 1 مجموعه داده 2 • مرحله 2: استفاده از وزن‌ها مقايسه دوبه‌دو تعدادی از رکوردها و برچسب‌زنی sim 1 sim 1 استفاده از تابع شباهت و تشکيل بردار ويژگی w1 w1 sim 2 sim 2 w2 w2 استفاده از يک مدل برای يادگيری داده‌های برچسب‌دار … … wn wn sim n sim n

آزمايشات معيارهای ارزيابی • دقت: • يادآوری: • F-measure:

آزمايشات داده‌های آزمايش • داده رستوران • در اکثر مقالات به عنوان داده مرجع استفاده می‌شود. • اطلاعات مربوط به رستوران‌ها که از دو وب‌سايت تهيه شده است. • اطلاعات مربوط به تعدادی از اين رستوران‌ها در هر دو وب سايت وجود دارد. • فيلدها دارای معنی هستند. • نوع و شهر

آزمايشات داده‌های آزمايش... • Cora: • توسط Andrew McCallumايجاد شده و از جمله داده‌های مرجع • اطلاعات مربوط به مقالات در پايگاه داده‌های متفاوت است. • شامل: نام نويسنده، جلد، عنوان، موسسه، محل برگزاری، آدرس، ناشر، سال، تعداد صفحات، ويرايشگر، يادداشت، ماه.

آزمايشات شرايط آزمايشات • توابع شباهت رشته‌ای مورد استفاده: • Jaro: • تعداد کاراکترهای مشترک و تعداد جابه‌جايي‌ها برای تساوی دو رکورد را اندازه می‌گيرد. • Soundex: • شباهت‌های تلفظی ميان رشته‌ها را اندازه می‌گيرد. • کاراکترهای با تلفظ مشابه را به کد تبديل می‌شود، کدها به صورت رشته‌ای با يکديگر مقايسه می‌شوند. • Levenshtein: • تعداد کاراکترهايي که بايد حذف، درج يا تغيير کنند تا دو رشته به يکديگر تبديل شوند. • Q-grams: • تعداد سری کاراکترهای مشترک • اين توابع از جمله توابع مرجع در يافتن شباهت رشته‌ای هستند.

آزمايشات شرايط آزمايشات .. • برای دسته‌بندی از مدل‌های زير استفاده شده است: • Naïve Bayes • BayesNet • J48 • RBF • Multi Layer Perceptron • Voted Perceptron • ADTree • دسته‌بندی کننده‌های فوق دارای بالاترين کارايی در مقالات هستند

آزمايشات آزمايش 1: استفاده از تابع شباهت معنايي بر روی داده رستوران

آزمايشات آزمايش 1: استفاده از تابع شباهت معنايي بر روی داده رستوران...

آزمايشات آزمايش 2: کاهش تعداد داده‌های آموزشی • کاهش تعداد داده‌های آزمايشی از 700 به 200

آزمايشات آزمايش 3: تعيين توابع شباهت مناسب • ميانگين کارايي تمامی دسته‌بندی‌کننده‌ها برای هر يک از توابع شباهت برروی داده رستوران

آزمايشات آزمايش 3: تعيين توابع شباهت مناسب • ميانگين کارايي تمامی دسته‌بندی‌کننده‌ها برای هر يک از توابع شباهت برروی داده Cora

نتيجه‌گيری خلاصه و نتيجه‌گيری • در بسياری از کاربردها يافتن رکوردهای تکراری مطرح است • يکپارچه‌سازی داده • پالايش داده • Similarity Query • تابع شباهتی ارائه شد که شباهت معنايي ميان مفاهيم را اندازه‌گيری می‌کند. • شباهت معنايي با استفاده از آناليز لغوی فيلدها اندازه‌گيری می‌شود. • برای بازنمايي و آناليز معنايي، از گراف معنايي استفاده می‌شود. • تابع شباهتجديد برروی داده‌های مرجع آزمايش شد • استفاده از تابع شباهت جديد سبب افزايش کارايي دسته‌بندی‌کننده‌ها می‌شود. • تابع شباهت نسبت به کاهش تعداد داده‌های آزمايشی پايدارتر است.

نتيجه‌گيری خلاصه و نتيجه‌گيری ... • تعيين تابع شباهت مناسب يکی از مشکلات يافتن رکوردهای تکراری است • روشی ارائه شد که ميزان اهميت هر يک از توابع شباهت با توجه به مجموعه داده‌های متفاوت را محاسبه می‌کند. • روش ارائه شده برروی مجموعه داده‌های استاندارد آزمايش شد. • آزمايشات نشان می‌دهد با تعيين تابع شباهت مناسب • محاسبات کمتر • کارايي بالاتر

نتيجه‌گيری کارهای آينده • استفاده از تابع شباهت معنايي در ساير روش‌ها • تاثير استفاده از تابع شباهت معنايي را می‌توان در ساير روش‌ها مثل روش‌های برپايه فاصله و يا خوشه‌بندی کننده‌ها بررسی کرد. • تعيين توابع شباهت مناسب برای هر يک از صفات • می‌توان اهميت توابع شباهت را برای هر يک از صفات در نظر گرفت و وزن‌ها با توجه به صفات تخمين زده شوند.

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی

تشخيص رکوردهای تکراری با استفاده از آناليز معنايي داده‌های عملياتی

Presentation Transcript