550 likes | 745 Views
تشخيص رکوردهای تکراری با استفاده از آناليز معنايي دادههای عملياتی. نام دانشجو: علی عبدلی اساتيد داور: آقای دکتر مينايي، آقای دکتر ميبدی استاد راهنما: آقای دکتر عبدالهزاده. فهرست. مقدمه. مقدمه. رکوردهای تکراری عبارتند از بازنماييهای متفاوت از يک موجوديت در جهان واقع.
E N D
تشخيص رکوردهای تکراری با استفاده از آناليز معنايي دادههای عملياتی نام دانشجو: علی عبدلی اساتيد داور: آقای دکتر مينايي،آقای دکتر ميبدی استاد راهنما: آقای دکتر عبدالهزاده
مقدمه مقدمه • رکوردهای تکراری عبارتند از بازنماييهای متفاوت از يک موجوديت در جهان واقع. • شناسايي رکوردهای تکراری، يافتن موجوديتهای يکسان با بازنماييهای متفاوت است.
مقدمه کاربردهای يافتن رکوردهای تکراری • تشخيص رکوردهای تکراری در کاربردهای زير مطرح است • يکپارچهسازی دادهها • Similarity Query • پاکسازی دادهها
مقدمه يکپارچهسازی دادهها • اطلاعات مربوط به موجوديتها در منابع دادهای متفاوت ذخيره شدهاند. • لازم است اطلاعات مربوط به يک موجوديت از منابع اطلاعاتی مختلف گردآوری شود. پايگاه داده حقوق و دستمزد پايگاه داده دانشگاه پايگاه داده رفاه کارکنان
مقدمه Similarity Query • در گروهی از پايگاههای داده امکان تطبيق دادهها با درخواست کاربر وجود ندارد. • به عنوان مثال در يک موتور جستجو • يافتن متون مربوط به درخواست کاربر. • يافتن موجوديت با شباهت بيشتر
مقدمه پاکسازی دادهها • اطلاعات با کيفيت پايين سبب کاهش کارايي سازمانها و تصميمات اشتباه • اطلاعات با کيفيت پايين عبارتند از • اطلاعات تکراری • غلطهای املايي و با نمايش اشتباه • وجود دادههای تکراری باعث • گزارشات اشتباه و در نتيجه تصميمات اشتباه • فرستادن چندين ايميل يکسان برای يک مشتری • هزينه نگهداری دادههای اضافی برروی رسانه
مقدمه پيشپردازش • تبديل دادهها به رکورد • استخراج ويژگی از صفحات وب، تصاوير، فيلمها • رکوردها برای آنکه قابل مقايسه شوند، بايد استانداردسازی، پارس يا تبديل به دادههای جديد شوند.
کارهای گذشته روشها و رويکردها در يافتن دادههای تکراری • در تشخيص دادههای تکراری، دادهها به شکل زير مدل میشوند • ساختار • مقدار • روشها با توجه به اين که شباهت ميان ساختار و يا مقدار و يا هر دو را در نظر بگيرند، به دستهها مختلف تقسيم میشوند.
کارهای گذشته روشها و رويکردها در يافتن دادههای تکراری...
کارهای گذشته روشهای برپايه ساختار و ترکيبی • روشهای برپايه ساختار و ترکيبی • دادهها دارای ساختار هستند
کارهای گذشته روشهای برپايه مقدار • در اين روشها، شباهت با توجه به مقدار دادهها مقايسه میشود و شباهتهای ساختاری در نظر گرفته نمیشود. • در مقايسه رکوردها از روشهای برپايه مقدار استفاده میشود زيرا: • رکوردها دارای ساختار يکسانی هستند. • در مرحله پيشپردازش فيلدهای قابل مقايسه استخراج شده است.
کارهای گذشته روشهای مقايسه فيلد • در اين روشها شباهت ميان فيلدها اندازهگيری میشود. • تابع شباهت، تابعی است که شباهت ميان دو فيلد را اندازهگيری کرده و به صورت عددی بين صفر و يک بيان میکند. محمد علی F(x,y)=0.7 محمد
کارهای گذشته روشهای مقايسه فيلد… • روشها مقايسه فيلد به دو دسته تقسيم میشوند • برپايه کاراکتر • شباهت بر اساس کاراکترها • برپايه توکن • در صورت تغييرات در سطح کلمات تشکيل دهنده فيلد، روشهای برپايه کاراکتر دارای کارايي مناسب نيستند. • مقايسه فيلد • برپايه توکن شنبه F(x,y)=0.7 • برپايه کاراکتر دوشنبه تهران، خيابان حافظ، دانشگاه اميرکبير F(x,y)=0.8 دانشگاه اميرکبير، ايران، تهران، خيابان حافظ
کارهای گذشته روشهای تجميعی • در روشهای تجميعی ميزان شباهت کل رکورد اندازهگيری میشود. • اين روشها به دو دسته زير دستهبندی میشوند • روشهای برپايه فرمولهای جبری • روشهای هوشمند
کارهای گذشته روشهای برپايه فرمولهای جبری • در روشهای برپايه فرمولهای جبری رويکردهای متفاوتی وجود دارد • جمع وزندار شباهت فيلدها • تبديل کل رکورد به يک فيلد • ... • مشکل تعيين حدود آستانه • بهترين کارايي در حدود 90%
کارهای گذشته روشهای هوشمند • استفاده از الگوريتمهای يادگيری ماشين • آموزش با استفاده از داده • استفاده از مدل برای دادههای تستی • مزايا • کمترين دخالت انسان • بالاترين کارايي
کارهای گذشته مراحل روشهای هوشمند • تشکيل بردار ويژگی با استفاده از مقايسه فيلد به فيلد يکسان يا غيريکسان شباهت 1 شباهت 2 ... شباهت n
کارهای گذشته مراحل روشهای هوشمند... مجموعه داده 1 مجموعه داده 2 مقايسه دوبهدو تعدادی از رکوردها و برچسبزنی فرد خبره استفاده از تابع شباهت و تشکيل بردار ويژگی استفاده از يک مدل برای يادگيری دادههای برچسبدار استفاده از مدل آموزش ديده برای برچسبگذاری ساير رکوردها
کارهای گذشته روشهای هوشمند... • Andrew McCallum • ارائه مدلهای بيزين و شبکههای بيزی و مدلهای احتمالی • ارائه مجموعه دادههای مرجع • Ahmed Elmagarmid • ارائه survey از تمامی روشها و رويکردهای موجود • VassiliosVerykios • استفاده از روشهای استخراج قوانين به صورت اتوماتيک • SunitaSarawagi • استفاده از روشهای يادگيری فعال • DebabrataDey • تشخيص رکوردهای تکراری به صورت برخط • Huimin Zhao • ترکيب دستهبندیکنندههای مختلف
کارهای گذشته مزايا و معايب روشهای موجود
روش پيشنهادی مشکل 1: در نظر نداشتن شباهت معنايي • روشهای مقايسه فيلد تنها میتوانند شباهت رشتهای و يا شباهتهای تلفظی ميان فيلدها را تعيين کنند. • در بسياری از موارد فيلدها دارای شباهت رشتهای نيستند ولی دارای ارتباط با يکديگر میباشند. کتاب اتومبيل کتابچه خودرو
روش پيشنهادی ارتباط معنايي… • دو رکورد زير به يک موجوديت در جهان واقع اشاره میکنند ولی فيلدها دارای هيچ شباهت رشتهای نيستند.
روش پيشنهادی گراف معنايي • گراف ابزاری برای نشان دادن ارتباط ميان مفاهيم موجود در کلمات • استفاده از گراف معنايي برای بازنمايي و آناليز لغوی • هر نود نشاندهنده يک مفهوم است. • مفاهيم مرتبط با يک يال به يکديگر متصل میشوند.
روش پيشنهادی گراف معنايي... موجوديت جاندار شي ... انسان حيوان ... خودرو فرمان چرخ دنده
روش پيشنهادی شباهت معنايي • روشهای متفاوتی برای تعيين شباهت معنايي ميان مفاهيم وجود دارد • تعداد گرههای کوتاهترين مسير • جمع يا ضرب وزندار يالهای کوتاهترين مسير • بزرگترين فاصله تا پدر مشترک
روش پيشنهادی ارائه تابع شباهت معنايي • استفاده از تابع شباهت معنايي به تنهايي نميتواند نشاندهنده ارتباط ميان فيلدها باشد. • فيلدها ممکن است دارای خطاهای رشتهای باشند. • بعضی از فيلدها مثل فيلد نام، دارای هيچ مفهومی نيست. • استفاده از شباهت رشتهای و معنايي
روش پيشنهادی ارائه تابع شباهت معنايي... مجموعه داده 1 مجموعه داده 2 شباهت 1 شباهت 2 مقايسه دوبهدو تعدادی از رکوردها و برچسبزنی ... شباهت n يکسان يا غيريکسان استفاده از تابع شباهت و تشکيل بردار ويژگی استفاده از يک مدل برای يادگيری دادههای برچسبدار 28 28 استفاده از مدل آموزش ديده برای برچسبگذاری ساير رکوردها
روش پيشنهادی مشکل 2: استفاده از تابع شباهت مناسب • توابع شباهت متفاوت برای مجموعه دادههای متفاوت • به عنوان مثال: • دادههاي سيستم بازشناسی گفتار دارای شباهتهای تلفظی هستند. • دادههايصفحات وب دارای خطاهای املايي هستند. اعتياد احتياط تاهل تعحل
روش پيشنهادی مشکل 2: استفاده از تابع شباهت مناسب... • لزوم استفاده از چندين تابع شباهت به صورت همزمان • به عنوان مثال ترکيب شباهت معنايي و رشتهای • بردار ويژگی با استفاده از اين توابع ايجاد میشود • تاثير برروی کارايي الگوريتمهای هوشمند
روش پيشنهادی ارائه روشی برای تعيين تابع شباهت • تابع شباهتی حاصل از ترکيب توابع شباهت کانديد sim 1 فيلد 1 از رکورد 1 w1 sim 2 Similarity w2 فيلد 1 از رکورد 2 … wn sim n
روش پيشنهادی ارائه روشی برای تعيين تابع شباهت... • وزنها نشاندهنده اهميت هر يک از توابع شباهت هستند. • وزنهای بالاتر نشاندهنده اهميت بيشتر تابع شباهت متناظر شده است. • در روشهای هوشمند، خروجی توابع شباهت برای هر فيلد برای ساخت بردار شباهت استفاده میشود. sim 1 فيلد 1 از رکورد 1 w1 sim 2 w2 فيلد 1 از رکورد 2 … wn sim n
روش پيشنهادی ارائه روشی برای تعيين تابع شباهت... sim 1 sim 1 w1 w1 sim 2 sim 2 w2 w2 … … wn wn sim n sim n
روش پيشنهادی تخمين وزنها • وزنها بايد بهگونهای تعيين شود که کارايي الگوريتمهای هوشمند بيشينه شود. F(w1 , … , wn ) w1 محاسبه کارايي الگوريتم برای زير مجموعهای از دادههای آموزشی w2 کارايي الگوريتم ... wn
روش پيشنهادی تخمين وزنها ... • وزنها بايد به شکلی تعيين شوند که F(w1 , … , wn )بيشينه شود. • برای اين کار اين تابع را توسط يکی از الگوريتمهای تکاملی مثل الگوريتم ژنتيک استفاده میشود.
روش پيشنهادی الگوريتم تعيين توابع شباهت مجموعه داده 1 مجموعه داده 2 • مرحله 1: تخمين وزنها انتخاب زير مجموعهای از دادهها و مجموعهای از توابع شباهت و وزنهای اوليه تشکيل بردار شباهت با استفاده از وزنها بهينهسازی توسط الگوريتمهای تکاملی استفاده از يک مدل يادگير و اندازه گيری کارايي تخمين وزنهای مناسب و حذف توابع شباهت نامناسب
روش پيشنهادی الگوريتم تعيين توابع شباهت... مجموعه داده 1 مجموعه داده 2 • مرحله 2: استفاده از وزنها مقايسه دوبهدو تعدادی از رکوردها و برچسبزنی sim 1 sim 1 استفاده از تابع شباهت و تشکيل بردار ويژگی w1 w1 sim 2 sim 2 w2 w2 استفاده از يک مدل برای يادگيری دادههای برچسبدار … … wn wn sim n sim n
آزمايشات معيارهای ارزيابی • دقت: • يادآوری: • F-measure:
آزمايشات دادههای آزمايش • داده رستوران • در اکثر مقالات به عنوان داده مرجع استفاده میشود. • اطلاعات مربوط به رستورانها که از دو وبسايت تهيه شده است. • اطلاعات مربوط به تعدادی از اين رستورانها در هر دو وب سايت وجود دارد. • فيلدها دارای معنی هستند. • نوع و شهر
آزمايشات دادههای آزمايش... • Cora: • توسط Andrew McCallumايجاد شده و از جمله دادههای مرجع • اطلاعات مربوط به مقالات در پايگاه دادههای متفاوت است. • شامل: نام نويسنده، جلد، عنوان، موسسه، محل برگزاری، آدرس، ناشر، سال، تعداد صفحات، ويرايشگر، يادداشت، ماه.
آزمايشات شرايط آزمايشات • توابع شباهت رشتهای مورد استفاده: • Jaro: • تعداد کاراکترهای مشترک و تعداد جابهجاييها برای تساوی دو رکورد را اندازه میگيرد. • Soundex: • شباهتهای تلفظی ميان رشتهها را اندازه میگيرد. • کاراکترهای با تلفظ مشابه را به کد تبديل میشود، کدها به صورت رشتهای با يکديگر مقايسه میشوند. • Levenshtein: • تعداد کاراکترهايي که بايد حذف، درج يا تغيير کنند تا دو رشته به يکديگر تبديل شوند. • Q-grams: • تعداد سری کاراکترهای مشترک • اين توابع از جمله توابع مرجع در يافتن شباهت رشتهای هستند.
آزمايشات شرايط آزمايشات .. • برای دستهبندی از مدلهای زير استفاده شده است: • Naïve Bayes • BayesNet • J48 • RBF • Multi Layer Perceptron • Voted Perceptron • ADTree • دستهبندی کنندههای فوق دارای بالاترين کارايی در مقالات هستند
آزمايشات آزمايش 1: استفاده از تابع شباهت معنايي بر روی داده رستوران
آزمايشات آزمايش 1: استفاده از تابع شباهت معنايي بر روی داده رستوران...
آزمايشات آزمايش 2: کاهش تعداد دادههای آموزشی • کاهش تعداد دادههای آزمايشی از 700 به 200
آزمايشات آزمايش 3: تعيين توابع شباهت مناسب • ميانگين کارايي تمامی دستهبندیکنندهها برای هر يک از توابع شباهت برروی داده رستوران
آزمايشات آزمايش 3: تعيين توابع شباهت مناسب • ميانگين کارايي تمامی دستهبندیکنندهها برای هر يک از توابع شباهت برروی داده Cora
نتيجهگيری خلاصه و نتيجهگيری • در بسياری از کاربردها يافتن رکوردهای تکراری مطرح است • يکپارچهسازی داده • پالايش داده • Similarity Query • تابع شباهتی ارائه شد که شباهت معنايي ميان مفاهيم را اندازهگيری میکند. • شباهت معنايي با استفاده از آناليز لغوی فيلدها اندازهگيری میشود. • برای بازنمايي و آناليز معنايي، از گراف معنايي استفاده میشود. • تابع شباهتجديد برروی دادههای مرجع آزمايش شد • استفاده از تابع شباهت جديد سبب افزايش کارايي دستهبندیکنندهها میشود. • تابع شباهت نسبت به کاهش تعداد دادههای آزمايشی پايدارتر است.
نتيجهگيری خلاصه و نتيجهگيری ... • تعيين تابع شباهت مناسب يکی از مشکلات يافتن رکوردهای تکراری است • روشی ارائه شد که ميزان اهميت هر يک از توابع شباهت با توجه به مجموعه دادههای متفاوت را محاسبه میکند. • روش ارائه شده برروی مجموعه دادههای استاندارد آزمايش شد. • آزمايشات نشان میدهد با تعيين تابع شباهت مناسب • محاسبات کمتر • کارايي بالاتر
نتيجهگيری کارهای آينده • استفاده از تابع شباهت معنايي در ساير روشها • تاثير استفاده از تابع شباهت معنايي را میتوان در ساير روشها مثل روشهای برپايه فاصله و يا خوشهبندی کنندهها بررسی کرد. • تعيين توابع شباهت مناسب برای هر يک از صفات • میتوان اهميت توابع شباهت را برای هر يک از صفات در نظر گرفت و وزنها با توجه به صفات تخمين زده شوند.