570 likes | 947 Views
دانشکده مهندسي کامپيوتر و فناوري اطلاعات. دانشگاه صنعتي امير كبير. دفاعيه پايان نامه كارشناسي ارشد. بهينه سازي كشف اطلاعات از مستندات نيمهساختيافته XML. Optimizing Information Discovery from Semi-Structured XML Documents . دانشجو مينا ملكي استاد راهنما دكتر احمد عبداللهزاده بارفروش
E N D
دانشکده مهندسي کامپيوتر و فناوري اطلاعات دانشگاه صنعتي امير كبير دفاعيهپايان نامه كارشناسي ارشد بهينه سازي كشف اطلاعات از مستندات نيمهساختيافته XML Optimizing Information Discoveryfrom Semi-Structured XML Documents دانشجو مينا ملكي استاد راهنما دكتر احمد عبداللهزاده بارفروش 1 بهمن 1385
عناوين اصلي • ضرورت انجام پژوهش • هدف پژوهش • طبقه بندي مستندات • روش هاي وزن دهي ويژگي • روش وزن دهي ويژگي پيشنهادي TFCRF • روش وزن دهي ويژگي پيشنهادي LBTF • سيستم طبقه بندي كننده مستندات نيمه ساختيافته XML • مشخصات بستر آزمايشگاهي پياده سازي شده • نتايج ارزيابيهاي انجام شده • نتيجه گيري، دستاوردهاي پروژه، پيشنهاد كارهاي آينده
ضرورت انجام پژوهش مستندات وب ساختيافته ؟ مستندات نيمه ساختيافته XML بازيابي+جستجو+ فهم و يادگيري + ارزيابي + استخراج اطلاعات+... كشف خودكار اطلاعات ازمستندات نيمه ساختيافته XML کشف خودكاردانشهاي جديد، الگوها، ارتباطات در مجموعه وسيعي از مستندات متن كاوي خوشه بندي طبقه بندي خلاصه سازي ...
هدف پژوهش بهبود كارايي طبقه بندي كننده • سازماندهي مستندات • تشخيص موضوع مستندات • جستجوي ساختيافتهو پيدا كردن مستندات در راستاي علايق كاربر • شاخص بندي خودكار مستندات در سيستمهاي بازيابي اطلاعات • مرتب كردن بلادرنگ نامه هاي الكترونيكي يا فايلها در سلسله مراتبي از پوشه ها • تشخيص معناي کلمات مبهم بهبود كشف اطلاعات از مستندات نيمه ساختيافته XML ارائه راهكاري به منظور بهبود كارايي طبقه بندي كننده جهت بهبود فرايند كشف اطلاعات از مستندات نيمه ساختيافته XML
طبقه بندي مستندات • طبقهبندي مستندات = انتساب اسناد متني بر اساس محتوي به يك يا چند طبقه از قبل تعيين شده • فازهاي طبقه بندي • فاز آموزشيساخت مدل با استفاده از مستندات آموزشي • فار آزمايشي استفاده از مدل بر روي مستندات آزمايشي ماتريس تصميم گيري
آستانه يابي تكرار مستندات (DF) • بهره اطلاعاتي (IG) • قدرت ويژگي (TS) • روش مراحل طبقه بندي مستندات • پيش پردازش مستندات • شاخص بندي مستندات • تبديل مستندات به برداري از كلمات تشكيل دهنده • انتخاب ويژگي • كاهش ابعاد بردار كلمات • وزن دهي ويژگي • تعيين ميزان اهميت و قدرت كلمات انتخاب شده در متمايز كردن هر مستند از ساير مستندات • طبقه بندي مستندات • اعمال الگوريتم طبقه بندي بر روي بردار كلمات انتخاب و وزن دهي شده مستندات • روش هاي مبتني بر TF • روش هاي مبتني بر IDF • طبقه بندي كننده هاي بيزين • نزديكترين K همسايه (KNN) • درخت هاي تصميم گيري • شبكه هاي عصبي • ماشين هاي بردارهاي پشتيبان (SVM)
راهكار بهبود كارايي طبقه بندي كننده ارائه الگوريتم جديد طبقه بندي كننده مستندات بهبود عمليات پيش پردازش
راه حل پيشنهادي بهبود روش وزن دهي ويژگي براي بالابردن كارايي طبقه بندي كننده مستندات نيمه ساختيافته XML متن كاوي استخراج اطلاعات طبقه بندي مستندات خوشه بندي پيش پردازش پرسش و پاسخ الگوريتم طبقه بندي شاخص بندي انتخاب ويژگي خلاصه سازي وزن دهي ويژگي
اگر روش هاي وزن دهي ويژگي • وزن دهي ويژگي k: تعداد ويژگي هاي متمايز در كل مجموعة D wik: وزن دهي ويژگيtkدر مستند di • روش هاي متداول وزن دهي ويژگي • روشهاي مبتني بر TF • تابعي از توزيع ويژگي در هر يك از مستندات • روشهاي مبتني بر IDF • تابعي از توزيع ويژگي در مجموعه مستندات D • روش هاي مبتني بر اطلاعات طبقات • تابعي از توزيع ويژگي در طبقات
روش وزن دهي ويژگي مبتني بر TF ايده: افزايش وزن دهي ويژگي با افزايش فركانس ويژگي در هر مستند.
روش هاي وزن دهي ويژگي مبتني بر IDF ايده: كاهش وزن ويژگي با افزايش فركانس ويژگي در مجموعه مستندات D. • IDF • TFIDF • normTFIDF
روش وزن دهي ويژگي مبتني بر اطلاعات طبقات • روشTFRF • سال 2005 توسط آقايLan
a تعداد مستندات متعاق به كلاس c1 b c تعداد مستندات متعلق به كلاس هاي غير c1 d (1) (2) (3) (4) روش وزن دهي ويژگي پيشنهادي TFCRF a: تعداد مستندات فاقد ويژگي x از كلاس c1 b: تعداد مستندات داراي ويژگي x از كلاس c1 c: تعداد مستندات داراي ويژگي x از كلاس غير c1 d: تعداد مستندات فاقد ويژگي x از كلاس غير c1
a تعداد مستندات متعاق به كلاس c1 b c تعداد مستندات متعلق به كلاس هاي غير c1 d (1) (2) (4) (3) روش وزن دهي ويژگي پيشنهادي TFCRF(ادامه) • روش هاي وزن دهي ويژگي مبتني بر IDF وزن x در (1)= وزن x در (2) = وزن x در (3) = وزن x در (4) • روش TFRF وزن x در (4)< وزن x در (3) < وزن x در (1) < وزن x در (2)
a تعداد مستندات متعاق به كلاس c1 b c تعداد مستندات متعلق به كلاس هاي غير c1 d (د) (ج) (ب) (الف) روش وزن دهي ويژگي پيشنهادي TFCRF(ادامه) • روش وزن دهي ويژگي TFRF • روش وزن دهي ويژگي منطقي وزن x(الف)= وزن x (ب) = وزن x (ج) = وزن x(د) وزن x(الف)< وزن x (ب) < وزن x (ج) < وزن x(د)
روش وزن دهي ويژگي پيشنهادي TFCRF(ادامه)
روش وزن دهي ويژگي پيشنهادي LBTF • مثال: طبقه بندي مقالات علمي برچسب گذاري شده XML • فركانس ويژگي x در ”عنوان“ 1 بار ”چكيده“ 2 بار ” متن“ 100 بار • روش وزن دهي ويژگي TF • روش وزن دهي ويژگي منطقي • مساله: تعيين ميزان اهميت (وزن) اجزاء مستند نيمه ساختيافته • راه حل1: فرايند مكاشفه اي در تعيين ميزان اهميت هر جزء (Giri سال 2004) • راه حل2: طبقه بندي كننده متا (Bratko سال 2004 و 2006) • راه حل 3: روش وزن دهي ويژگي LBTF پيشنهادي (Maleki در سال 2007) 103=100+2+1=وزن ويژگيx وزن جزء متن*100+وزن جزء چكيده*2+وزن جزء عنوان*1=وزن ويژگي x
روش وزن دهي ويژگي پيشنهادي LBTF(ادامه) • ايده: وزن دهي ويژگي براساس اطلاعات ساختاري مستندات نيمه ساختيافته XML • تكنيك: توجه به چگالي هر يك از اجزاء تشكيل دهنده مستند XML مجموعه اجزاء موجود در مستندات XML مجموعه D
واحد پيش پردازشگر مستندات نيمه ساختيافته XML واحد طبقه بندي کننده مستندات نيمه ساختيافته طبقه بندي شده XML مستندات نيمه ساختيافته XML سيستم طبقه بندي كننده مستندات نيمه ساختيافته XML
زيرسيستم پالاينده مستندات • وظيفه: دريافت و پالايش مجموعه مستندات XML ورودي جهت تعيين مجموعه D • ورودي: مستندات نيمه ساختيافته XML • خروجي: مستندات پالايش شده XML به عنوان مجموعه D • مولفه ها • حذف كننده برچسب هاي غير ضروري • بررسي كننده ساختار مستندات XML • انتخاب كننده مستندات XML پالايش شده • حاوي اطلاعات معنايي مهم نيستند. • در تعداد كمتري از مستندات مجموعه وجود دارند. • قابل تبديل به برچسب هاي ديگر هستند. • شناسايي و اصلاح اجزاء غير خوش فرم • حذف اجزاء تهي • داراي بيشترين برچسب
زيرسيستم استخراج كننده ويژگي ها • وظيفه: پردازش مجموعه مستندات D جهت استخراج ويژگي هاي مهم با حفظ اطلاعات ساختاري • ورودي: مجموعه مستندات D • خروجي: مجموعه مستندات D شاخص بندي شده • مولفه ها • تحليلگر لغوي ساختاري • سازنده پايگاه داده • پالاينده لغوي با حفظ اطلاعات مكاني • شاخص بندي مستندات و استخراج كلمات • حذف اعداد و علائم نگارشي • يكسان سازي شكل حروف ريشه يابي شده • حذف كلمات توقف • ريشه يابي كلمات
زيرسيستم استخراج كننده ويژگي ها(ادامه) قالب مستندات شاخص بندي شده
زيرسيستم كاهنده ويژگي ها • وظيفه: كاهش ابعاد ويژگي هاي تشكيل دهنده مستندات و انتخاب بهترين آنها • ورودي: جداول پايگاه داده حاوي ويژگي هاي شاخص بندي شده ساختاري • خروجي: ليستي از ويژگي هاي انتخاب شده • مولفه ها • فيلتر كننده ويژگي ها • انتخاب كننده ويژگي • تعريف حد آستانه پائين و بالا • حذف ويژگي هاي نادراشكال املائي يا ذهن خلاق نويسنده (!) • حذف ويژگي هاي وافر كلمه توقف حذف نشده • شناسايي و حذف ويژگي هاي داراي بار معنايي پائينتر از ساير ويژگي ها
زيرسيستم وزن دهي ويژگي • وظيفه: تعيين ميزان اهميت هر يك از ويژگي هاي مستند در متمايز كردن آن مستند از ساير مستندات • ورودي: برداري از ويژگي هاي انتخاب شده به همراه اطلاعات شاخص بندي مكاني آنها • خروجي: بردار ويژگي هاي وزن دهي شده
مشخصات بستر آزمايشگاهي پياده سازي شده • پياده سازي در چارچوب .Netبه زبان برنامه نويسي C# با بيش از 6500 خط كد • مستندات وروديinex
مجموعه مستندات inex • شامل 12107 مقاله علمي از 18 مجله انتشارات انجمن كامپيوتر IEEE از سال 1995 تا 2002 به فرمت XML • تاريخچه
مجموعه مستندات inex • شامل 12107 مقاله علمي از 18 مجله انتشارات انجمن كامپيوتر IEEE از سال 1995 تا 2002 به فرمت XML • تاريخچه • برچسب هاي مستندات inex • برچسب هاي پايه • حفظ برچسب ابتدا/انتها و محتويات
مجموعه مستندات inex • شامل 12107 مقاله علمي از 18 مجله انتشارات انجمن كامپيوتر IEEE از سال 1995 تا 2002 به فرمت XML • تاريخچه • برچسب هاي مستندات inex • برچسب هاي پايه • برچسب هاي حذف شدني • حذف برچسب ابتدا/انتها و محتويات
مجموعه مستندات inex • شامل 12107 مقاله علمي از 18 مجله انتشارات انجمن كامپيوتر IEEE از سال 1995 تا 2002 به فرمت XML • تاريخچه : دانشگاه Duisburg آلمان • برچسب هاي مستندات inex • برچسب هاي پايه • برچسب هاي حذف شدني • برچسب هاي تبديل شدني • تبديل برچسب ابتدا/ انتها مبدا به مقصد
مجموعه مستندات inex • شامل 12107 مقاله علمي از 18 مجله انتشارات انجمن كامپيوتر IEEE از سال 1995 تا 2002 به فرمت XML • تاريخچه • برچسب هاي مستندات inex • برچسب هاي پايه • برچسب هاي حذف شدني • برچسب هاي تبديل شدني • برچسب هاي ساختاري • حذف برچسب ابتدا/ انتها
مشخصات بستر آزمايشگاهي پياده سازي شده • پياده سازي در چارچوب .Netبه زبان برنامه نويسي C# با بيش از 6500 خط كد • مستندات وروديinex • الگوريتم طبقه بندي كننده SVM
الگوريتم طبقه بندي كننده SVM • هدف: پيدا کردن تمام صفحات در فضاي r بعدي که نمونههاي مثبت و منفي را با بيشترين حاشيه از هم جدا كنند. • مزاياي SVM: • بهترين الگوريتم طبقه بندي مستندات • قابليت كار با تعداد ويژگي هاي زياد • عدم تاثير تعداد ويژگي بر كارايي الگوريتم • پايداري • پياده سازي توسط LIBSVM حاشيه كوچك حاشيه بزرگ
مشخصات بستر آزمايشگاهي پياده سازي شده • پياده سازي در چارچوب .Netبه زبان برنامه نويسي C# با بيش از 6500 خط كد • مستندات وروديinex • الگوريتم طبقه بندي كننده SVM • روش انتخاب ويژگيآستانه يابي فركانس مستندات (DF)
انتخاب ويژگي DF • دليل انتخاب • سادگي • هزينه محاسباتي پائين • دقت و كارايي معادل بهترين روش هاي انتخاب ويژگي نظير IG • مناسب در حوزه طبقه بندي مستندات • ايده: ظاهر شدن ويژگي در تعداد مستندات بيشتر بالا بودن ارزش معنايي ويژگي جهت تفكيك طبقات از يكديگر (بعد از حذف كلمات توقف) • راهكار: شمارش تعداد مستندات داراي ويژگي
مشخصات بستر آزمايشگاهي پياده سازي شده • پياده سازي در چارچوب .Net به زبان برنامه نويسي C# حدود .... خط كد • مستندات وروديinex • الگوريتم طبقه بندي كننده SVM • روش انتخاب ويژگيDF • روشهاي وزن دهي ويژگيمبتني بر TF +مبتني برIDF + TFRF + TFCRF + LBTF • تقسيم بندي مستندات به نسبت 3/2 آموزشي و 3/1 آزمايشي • تعداد كلمات توقف بعد از تكميل 1392 كلمه 1079 كلمه توقف ريشه يابي شده
نتايج ارزيابيهاي انجام شده • تاثير فيلتر كردن ويژگي ها • حد آستانهپائين 10% كل تعداد مستندات
نتايج ارزيابيهاي انجام شده(ادامه) • ارزيابي روش وزن دهي ويژگي LBTF • 180 مستند ورودي • بدون فيلتر • ميانگين تعداد كلمات در هر برچسب و وزن برچسب • عنوان: 5 ويژگيوزن برچسب عنوان 2/0 • چكيده: 40 ويژگي وزن برچسب چكيده 09/0 • كلماتكليدي: 11 ويژگي وزن برچسب كلمات كليدي 025/0 • متن: 439 ويژگي وزن برچسب متن 002/0 نتيجه منطقي
نتايج ارزيابيهاي انجام شده(ادامه) • ارزيابي روش وزن دهي ويژگي LBTF • تعداد مستندات: 180 • تعداد كل ويژگي ها:10816 • بهترين مقدار Accuracy • TF: 46 درصد • LBTF: 55 درصد
نتايج ارزيابيهاي انجام شده(ادامه) • ارزيابي روش وزن دهي ويژگي LBTF LBTF
نتايج ارزيابيهاي انجام شده(ادامه) • ارزيابي روش وزن دهي ويژگي LBTF TF
نتايج ارزيابيهاي انجام شده(ادامه) • ارزيابي روش وزن دهي ويژگيTFCRF • تعداد مستندات: 720 • تعداد ويژگي:26434 • TF: • 73/0 به ازاي 8000 ويژگي • Sparck: • 767/0 به ازاي 2000 ويژگي
نتايج ارزيابيهاي انجام شده(ادامه) • ارزيابي روش وزن دهي ويژگيTFCRF • TFRF • 883/0 به ازاي 2000 ويژگي • TFCRF • 933 /0 به ازاي 4000 ويژگي
نتايج ارزيابيهاي انجام شده(ادامه) • تاثير تعداد مستندات بر روي روش TFCRF TFCRF TFRF
نتايج ارزيابيهاي انجام شده(ادامه) • تاثير فيلتر كردن ويژگي ها بر روش TFCRF
نتيجه گيري • بهبود كارايي طبقهبندي كننده مستندات نيمه ساختيافتهXML(حدود 5 الي 9 درصد) با بكارگيري روش وزن دهي ويژگي LBTF • افزايش سرعتطبقهبندي كننده مستندات نيمه ساختيافتهXML در رسيدن به بيشترين حد كارايي با بكارگيري روش وزن دهي ويژگي LBTF • بهبود كارايي طبقهبندي كننده مستندات (حدود 5 درصد) با بكارگيري روش وزن دهي ويژگي TFCRF • عدم وابسته بودن كارايي روش طبقهبندي كننده مستندات مبتني بر TFCRFبا تغيير تعداد مستندات ورودي • افزايش سرعت محاسباتي با كاهش تعداد ويژگي ها (83% در 360 مستند و 89% در 720 مستند)كاهش ناچيز كارايي طبقهبندي كننده مستندات مبتني بر TFCRF(حدود 004/0)
دستاوردهاي پروژه • ارائه روش جديدي براي طبقهبندي مستندات نيمه ساختيافته XML • طراحي و پياده سازي چارچوبي جهت ارزيابي اجزاء مختلف سيستم طبقهبندي كننده مستندات نيمه ساختيافته • طراحي و پياده سازي يك تحليلگر لغوي ساختاري براي شاخص بندي كردن مستندات نيمه ساختيافته با حفظ اطلاعات ساختاري ويژگيهاي تشكيل دهنده آنها • ارائه روش جديدي براي وزن دهي برچسب ها و تعيين ميزان اهميت هر يك از اجزاء • ارائه روشي جديد براي وزن دهي ويژگيهاي مستندات نيمه ساختيافته براساس موقعيت ويژگي(LBTF) • ارائه روش جديد براي وزن دهي ويژگي براساس اطلاعات طبقات(TFCRF) • بكارگيري روش وزن دهي ويژگي Sparck در حوزه طبقهبندي مستندات • ارائه ليست كاملي از كلمات توقف + ايده جديد به منظور دستيابي به بهينه ترين ليست كلمات توقف