330 likes | 532 Views
Ontology Evaluation ارزیابی آنتولوژی. ارائه دهنده: احمد استيري زير نظر : دكتر کاهانی دانشگاه فردوسي مشهد بهار 90. مطالب. مقدمه اهمیت ارزیابی آنتولوژی ها روشهای اصلی ارزیابی آنتولوژی ها بررسی مدلی برای رتبه بندی آنتولوژی های بازیابی شده از موتورهای جستجوی آنتولوژی جمع بندی و نتیجه گیری
E N D
Ontology Evaluationارزیابی آنتولوژی ارائه دهنده: احمد استيري زير نظر : دكتر کاهانی دانشگاه فردوسي مشهد بهار 90
مطالب • مقدمه • اهمیت ارزیابی آنتولوژی ها • روشهای اصلی ارزیابی آنتولوژی ها • بررسی مدلی برای رتبه بندی آنتولوژی های بازیابی شده از موتورهای جستجوی آنتولوژی • جمع بندی و نتیجه گیری • منابع
مقدمه • امروزه نقش و کاربرد آنتولوژی در سیستم های مبتنی بر دانش بسیار قابل توجه است. • آنتولوژی بعنوان یک ابزار قدرتمند برای نمایش و بیان دانش مربوط به یک حوزه در یک قالب رسمی و قابل پردازش توسط ماشین، مطرح است. • به کمک آن می توان ارتباط بین سیستم های ناهمگون را برقرار کرد و تعامل و ارتباط متقابل بین برنامه ها، ماشینها، و سیستم های ناهمگون را بهبود داد. • اگر چه وعده آنتولوژی ها حل مشکل تعامل سیستم های ناهمگون می باشد، اما در عمل، خود آنتولوژی ها، سطحی از ناهمگونی را به سیستم اضافه می نمایند.
اهمیت ارزیابی آنتولوژی ها • با توجه به نقش مهم آنتولوژی در سیستم های مبتنی بر دانش، موضوع ارزیابی و نحوه بررسی کیفیت آنتولوژی از اهمیت بالایی برخوردار می باشد. طبیعتا اگر قرار است آنتولوژی ها بعنوان عناصر اصلی وب معنایی استفاده شوند، باید بتوان به روشی اعتبار آنها را از نظر کیفی مورد سنجش قرار داد. • در حال حاضر هیچ روش استانداردی برای ارزیابی آنتولوژی وجود ندارد و این زمینه بعنوان یک زمینه مناسب جهت کار و پژوهش مطرح می باشد.
روشهای اصلی ارزیابی آنتولوژی ها 1. روشهای مبتنی بر مقایسه با یک مدل مرجع (golden standard) 2. روش مبتنی بر application 3. روشهای چند معیاره 4. روش مبتنی بر افراد خبره 5. ....
1. روشهای مبتنی بر مقایسه با یک مدل مرجع • مقایسه ی آنتولوژی مورد نظر با یک آنتولوژی یا یک منبع اطلاعاتی دیگر که بعنوان مرجع و منبع اصلی در حوزه مورد بحث شناخته شده است. • مثال: ارزیابی یک آنتولوژی مربوط به حوزه تست نرم افزار • اگر آنتولوژی شناخته شده و مرجعی وجود داشته باشد آن را به عنوان مرجع مقایسه انتخاب می کنیم. • اگر هم چنین آنتولوژی ای موجود نباشد منابع دیگر را مورد استفاده قرار می دهیم. مثلا یکسری مستندات رسمی و دقیق را که دانش مربوط به حوزه تست نرم افزار را بخوبی در بر گرفته است، انتخاب کرده و آنتولوژی را با آن مقایسه می نماییم.
مقایسه آنتولوژی با آنتولوژی • مدل مرجع: یک آنتولوژی • کار ما مقایسه آنتولوژی با آنتولوژی خواهد بود و کار ساده تر از حالت دوم است. • در این حالت می توانیم اجزای آنتولوژی اول را با آنتولوژی مرجع مقایسه نموده و هر چه تشابه این دو آنتولوژی بیشتر باشد آنتولوژی مورد بررسی به آنتولوژی مرجع نزدیکتر است و در نتیجه می توان گفت که از کیفیت بالاتری برخوردار است. • منظور از اجزای آنتولوژی، کلاسها، روابط، خصیصه ها، قیود و نمونه ها می باشند.
خلاصه سازی آنتولوژی (Ontology Summarization) • منظور از خلاصه سازی یک آنتولوژی، آن است که مهمترین قسمت های یک آنتولوژی را استخراج کنیم و در قالب یک آنتولوژی جدید ذخیره نماییم. بدین ترتیب با حذف جزئیات غیر ضروری، می توانیم فهم و درک آنتولوژی را ساده تر کنیم. • مساله: فرض کنید می خواهید برای یک کاربرد خاص، از آنتولوژی استفاده کنید. • ایده: در موتورهای جستجوی مخصوص، نظیر SWOOGLE، جستجو کنید و ببینید آیا در حال حاضر در زمینه مورد نظر شما، آنتولوژی آماده ای وجود دارد یا خیر. • انتخاب آنتولوژی مورد نظر ما با توجه به ارزیابی آنتولوژی های پیشنهادی موجود.
خلاصه سازی آنتولوژی (ادامه) • بررسی و ارزیابی یک نسخه ی سبک و خلاصه شده از آنتولوژی ها بدون ذکر جزئیات اضافی، کار ساده تری است. • راه حل اول: بهره گیری ازVisualizerمناسب. • امکان نمایش آنتولوژی در سطوح مختلفی از جزئیات جهت مشاهده و ارزیابی آن در سطوح مختلف برای کاربران. • مشکل: همواره نمی توان به امکانات Visualizerها تکیه کرد. بعنوان مثال در برخی کاربردها، لازم است که یک عامل نرم افزاری، یک آنتولوژی را بررسی کند(مثلا در بحث ارزیابی و انتخاب آنتولوژی توسط عامل نرم افزاری، این مساله پیش می آید). • در این حالت بحث مشاهده بصری در مورد آن صدق نمی کند و بایستی تمهیدات دیگری را جهت بهبود مساله بیندیشیم.
خلاصه سازی آنتولوژی (ادامه) • راه حل: تهیه ی یک نسخه ی خلاصه شده از آنتولوژی ها بدون ذکر جزئیات اضافی. • اگر بجای بررسی کل آنتولوژی، یک نسخه خلاصه شده آن را مورد پردازش قرار دهد، قاعدتا کارایی بهتری حاصل خواهد شد. • بنابراین، انگیزه اصلی برای بحث خلاصه سازی آنتولوژی، همان درک و پردازش ساده تر آن، چه توسط انسان و چه توسط ماشین، می باشد. • در این زمینه کارهای بسیار کمی انجام شده است که می توان از ایده ها و نظریه های مطرح شده در زمینه خلاصه سازی متن (Text Summarizatioin) در این حیطه نیز بهره گرفت.
مقایسه آنتولوژی با مستندات رسمی و دقیق علمی • مدل مرجع: مجموعه ای از مستندات رسمی و دقیق علمی • باز هم به مقایسه اجزای آنتولوژی با اجزای آن مجموعه مستندات می پردازیم و هرچه تشابه بیشتری بین آنها وجود داشته باشد، کیفیت آنتولوژی بالاتر است چون دانش نمایش داده شده در آن آنتولوژی با دانش بیان شده در آن مجموعه مستندات تشابه بیشتری دارد. • مساله: محدودیت در مورد اجزای مورد مقایسه. • روش ساده آن است که منظور از اجزا، را فقط اجزای متنی بدانیم یعنی فقط لغات، عبارات و کلمات کلیدی موجود در مستندات مرجع را با نام کلاسها، روابط و خصیصه های آنتولوژی مقایسه نماییم. • به بیان دیگر در این حالت به نوعی مقایسه ما صرفا یک مقایسه در سطح syntax است و نه یک مقایسه در سطح semantic .
مقایسه آنتولوژی با مستندات رسمی و دقیق علمی(ادامه) • یعنی مثلا بررسی می کنیم که چنددرصد از کلمات کلیدی مستندات مرجع، در نام عناصر آنتولوژی استفاده شده است. اما نمی توانیم (یا خیلی سخت است که) بررسی کنیم چه میزان از ساختارها و روابط موجود در مستندات مرجع، در ساختار آنتولوژی ذخیره شده است. • معیارهای ارزیابی در این روش: • precision: نسبت تعداد مفاهیمی از آنتولوژی که در مرجع مورد استفاده نیز ذکر شده اند به تعداد کل مفاهیمی که در آنتولوژی موجود می باشند. • recall: نسبت تعداد مفاهیم و کلمات کلیدی موجود در مرجع مورد استفاده که در آنتولوژی هم موجود می باشند به تعداد کل مفاهیم موجود در مرجع مذکور.
یک سوال اساسی! • اگر در یک زمینه، آنتولوژی مناسب و استانداردی وجود داشته باشد که دیگر نیاز به ایجاد آنتولوژی در آن حوزه نمی باشد، در نتیجه موضوع مقایسه یک آنتولوژی با یک آنتولوژی مرجع، به چه معناست و آیا اصلا موضوعیت دارد یا خیر؟ • پاسخ: گاهی اوقات، بحث ارزیابی یک آنتولوژی خودش یک بحث جنبی است و بعنوان یک ابزار برای ارزیابی موضوع دیگری مورد استفاده قرار می گیرد و در اینصورت اشکال فوق مطرح نمی باشد. • مثال: ارزیابی الگوریتم های تولید خودکار آنتولوژی با استفاده از یکسری متون تخصصی با بهره گیری از مباحثی از جمله ontology learning و .... با ارزیابی آنتولوژی تولید شده توسط الگوریتم با آنتولوژی های مرجع موجود در زمینه ی مورد نظر.
2. روش مبتنی بر application • در این روش، آنتولوژی ای که می خواهیم ان را ارزیابی نماییم، را در یک برنامه کاربردی مورد استفاده قرار می دهیم و سپس بر اساس میزان تاثیر مثبتی که استفاده از آن آنتولوژی در برنامه کاربردی مذکور دارد، به سنجش کیفیت آنتولوژی مورد نظر می پردازیم. • مشکلات: • اولا: باید ابتدا یک برنامه کاربردی مناسب برای حوزه مربوط به آن آنتولوژی، در دسترس باشد و بتوانیم آن برنامه کاربردی را برای استفاده از آن آنتولوژی، customize کنیم و آنتولوژی را با آن integrate نماییم. این موارد کارهای ساده ای نیستند و همیشه امکان چنین کاری وجود ندارد.
2. روش مبتنی بر application (ادامه) • ثانیا: اینکه کارایی برنامه کاربردی را به چه میزان و بر اساس چه قاعده ای به کارایی آنتولوژی مورد استفاده مرتبط نماییم، خودش جای بحث دارد. • یعنی بالفرض که یک آنتولوژی را در یک برنامه کاربردی بکار بردیم و کارآیی آن را اندازه گرفتیم، حال آیا نباید فاکتورهای دیگری را نیز در این افزایش یا کاهش کارایی دخیل بدانیم؟ • آیا می توانیم تمام این تغییر کارایی را به آنتولوژی مورد استفاده مربوط بدانیم؟ برنامه کاربردی باید چه ویژگی هایی داشته باشد تا کیفیت آنتولوژی را بخوبی منعکس نماید؟
2. روش مبتنی بر application (ادامه) • ثالثا: اینکه بخواهیم یک آنتولوژی را قبل از ارزیابی، در یک برنامه کاربردی بطور کامل مورد استفاده قرار دهیم و آن برنامه کاربردی را هم به مدت کافی مورد تست و ارزیابی قرار دهیم تا بتوانیم کارایی آن را بسنجیم، ممکن است هزینه این تصمیمات زیاد باشد. • همچنین اگر بخواهیم چند آنتولوژی را با هم مقایسه نماییم باید همه آنها را در آن برنامه کاربردی مورد استفاده قرار دهیم، که این امر هزینه ها را بشدت افزایش می دهد...
3. روشهای چند معیاره • تعریف و توجیه معیارهای ارزیابی • بیان نقش و اهمیت این معیارها برای ارزیابی آنتولوژی ها • یکپارچه کردن کمیت هر یک از این معیارها با بهره گیری از یک فرمول مناسب طراحی شده. • محاسبه ی یک کمیت نهایی که مبین میزان کیفیت آنتولوژی می باشد.
4. روش مبتنی بر افراد خبره • در روش مبتنی بر افراد خبره در واقع بیش از آنکه بحث فنی داشته باشد، مباحث فلسفی و انسانی در آن مطرح است. • در این روش، یک فرد خبره که در حوزه مذکور بعنوان یک فرد متخصص شناخته می شود، آنتولوژی را بصورت دستی و با روشهای نظری و بطور غیرخودکار مورد ارزیابی و سنجش قرار می دهد.
بررسی مدلی برای رتبه بندی آنتولوژی های بازیابی شده از موتورهای جستجوی آنتولوژی • همانطور که پیش تر گفته شد از یک سو، آنتولوژی ها بعنوان عنصر پایه در سیستم های مبتنی بر دانش مطرح می باشند و تمایل به سمت استفاده از آنها بسیار زیاد می باشد. از سوی دیگر، طراحی، توسعه و بروزرسانی آنتولوژی های خوب و دقیق، کار سخت و زمانبری می باشد که نیاز به دقت و تخصص دارد. • در نتیجه مشابه همان موضوعی که در مورد توسعه سیستم های نرم افزاری مطرح است، یعنی بحث استفاده مجدد، در اینجا هم مطرح است و استفاده مجدد از آنتولوژی های موجود، مطلوب است.
نحوه ی عملکرد SWOOGLE • موتور جستجوی آنتولوژی SWOOGLE فراهم آوردن واسطی برای جستجوی آنتولوژی های موجود در مخزن آن بر حسب کلمه کلیدی مورد نظر. • اما مساله اصلی که سعی در بهبود آن داریم،آن است کهSWOOGLE عمل جستجو را فقط بر حسب کلمه کلیدی کاربر انجام می دهد و نه بر حسب معیارهای معنایی. • در واقع می توان اینگونه بیان کرد کهSWOOGLEمانند Google، دارای یکcrawlerاست که بر روی web به جستجوی آنتولوژی ها می پردازد و آنها را index می کند. سپس به هر یک از این آنتولوژی ها یک rank می دهد. همانند کاری که google با استفاده از الگوریتم pageRank خود انجام می دهد.
نحوه ی عملکرد SWOOGLE (ادامه) • SWOOGLE برای رتبه بندی آنتولوژی ها از الگوریتمی شبیه PageRank استفاده می کند و آنتولوژی هایی را که در آنتولوژی های بیشتری import شده باشند را در اولویت قرار می دهد. • در حالیکه این ترتیب لزوما مناسب نیست و ترتیب نتایج باید بر حسب میزان نزدیکی معنایی آنتولوژی ها با کلمه کلیدی کاربر تعیین شود. یعنی آنتولوژی ای در اولویت قرار گیرد که از نظر معنایی به کلمه یا کلمات کلیدی کاربر نزدیک تر باشد. • بدین ترتیب، مشکل اصلی آن است که جستجو SWOOGLE در واقع یک جستجوی keyword-based و بدون توجه به معنا، می باشد.
راه حل پیشنهادی • معرفی یک چارچوب با عنوان AKTiveRank . • ایده اصلی: یک موتور جستجو، باید آنتولوژی ها را بر حسب نزدیکی ساختاری و معنایی آنها با کلمه کلیدی کاربر، رتبه بندی نماید. • روال کار این چارچوب بدین ترتیب است که کاربر با استفاده از واسطی که AKTiveRank فراهم می کند کلمه کلیدی خود (مثلا نام کلاسهایی که می خواهد آنتولوژی های جواب، آن کلاسها را داشته باشند) را وارد کرده و به جستجو می پردازد.
راه حل پیشنهادی (ادامه) • در واقع AKTiveRank در پشت صحنه، از SWOOGLE استفاده می کند و در واقع SWOOGLE عمل جستجو را انجام می دهد و AKTiveRank عمل رتبه بندی و ارائه نتایج نهایی به کاربر را بر عهده دارد. • AKTiveRank برای رتبه بندی آنتولوژی های نتایج، از 4 معیار استفاده می کند و برای هر یک از آنتولوژی ها، مقدار این 4 معیار را محاسبه کرده و سپس با ترکیب این 4 مقدار، یک مقدار نهایی برای هر آنتولوژی بدست می آورد و سپس آنتولوژی ها را بر حسب این مقدار نهایی، رتبه بندی می نماید.
معیارهای رتبه بندی 1. معیار CMM: Class Match Measure • مفهوم این معیار آن است که در آنتولوژی مورد ارزیابی، چه تعداد از کلمات کلیدی کاربر بعنوان نام کلاسها، استفاده شده اند. • بدین ترتیب هرچه مقدار معیار CMM برای یک آنتولوژی بیشتر باشد این بدان معناست که آن آنتولوژی به میزان بیشتری مفاهیم مربوط به کلمات کلیدی مورد نظر کاربر را پوشش می دهد و آن کلمات کلیدی در آن آنتولوژی از جایگاه مهمی برخوردار می باشند.
معیارهای رتبه بندی (ادامه) 2. معیار DEM: Density Measure • این معیار مشخص کننده آن است که آنتولوژی مورد ارزیابی، کلمات کلیدی مورد نظر کاربر را تا چه حد و تا چه عمقی (تعداد خصیصه ها و زیر کلاس ها) مورد پوشش قرار می دهد و به چه میزان جزئیات آن مفهوم و آن کلمه کلیدی را در بر می گیرد. • هر چه مقدار این معیار برای یک آنتولوژی بیشتر باشد این بدان معناست که آن آنتولوژی، کلمه کلیدی مورد نظر را با جزئیات بیشتری مورد تعریف و پوشش قرار می دهد. • برای محاسبه مقدار DEM، تعداد زیرکلاسها، superclass ها، روابط و sibling ها نیز مورد توجه قرار می گیرد.
معیارهای رتبه بندی (ادامه) 3. معیار SSM: Semantic Similarity Measure • این معیار مشخص می کند که کلاسهای موجود در آنتولوژی، که نامشان با کلمات کلیدی کاربر مطابقت دارد (مطابقت جزئی یا کامل) تا چه حد به هم نزدیکی معنایی دارند. هر چه آن کلاسها، با هم، رابطه و نزدیکی معنایی بیشتری داشته باشند این بدان معناست که مفاهیم مستتر در کلمات کلیدی مذکور به شکل کاملتری (بهمراه مفاهیم نزدیک و مرتبط بیشتری) بیان شده اند. • برای اندازه گیری میزان نزدیکی این کلاسها با هم، از معیار نزدیکترین مسیر استفاده شده است. ایده اصلی آن است که هر چه دو مفهوم A و B از نظر معنایی ارتباط بیشتری با هم داشته باشند، کلاسهای معادل این دو مفهوم در آنتولوژی نیز به هم نزدیکتر می باشند.
معیارهای رتبه بندی (ادامه) 4. معیار BEM: Betweenness Measure • ایده اصلی این معیار آن است که اگر کوتاهترین مسیر بین هر دو زوج مفهوم موجود در آنتولوژی را مشخص نماییم، آنگاه اگر برای یک مفهوم، تعداد کوتاهترین مسیرهایی که از این دو مفهوم می گذرند را محاسبه نماییم، هر چه این مقدار بزرگتر باشد، این بدان معناست که آن مفهوم، در آن آنتولوژی، نقش مهمتر و کلیدی تری داشته است و از محوریت و مرکزیت بیشتری برخوردار است. • هرچه کلمات کلیدی مورد نظر کاربر، در یک آنتولوژی از جایگاه مهمتر و مرکزی تری برخوردار باشند، آن آنتولوژی، به مفاهیم مورد نظر کاربر توجه بیشتری داشته است و به آن مفاهیم نزدیکتر می باشد. در نتیجه آن آنتولوژی از کیفیت و اولویت بیشتری برخوردار است.
معیارهای رتبه بندی (ادامه) • همانطور که پیشتر گفته شد، در پایان پس از محاسبه مقدار این 4 کمیت برای هر آنتولوژی، یک مقدار نهایی برای آن آنتولوژی محاسبه می شود (ترکیب وزندار 4 کمیت مذکور) که میزان ارزش و قرابت معنایی آن آنتولوژی با کلمات کلیدی مورد نظر کاربر را مشخص می کند. • سپس بر اساس این مقادیر نهایی، آنتولوژی ها رتبه بندی می شوند.
جمع بندی و نتیجه گیری • در حال حاضر هیچ روش استانداردی برای ارزیابی آنتولوژی موجود نمی باشد. • در انتخاب روش ارزیابی یک آنتولوژی، باید به اینکه هدف ارزیابی چه می باشد و همچنین به اینکه آن آنتولوژی قرار است در چه کاربردی مورد استفاه واقع شود، توجه نمود. • خودکارسازی ارزیابی آنتولوژی از اهمیت بالایی برخوردار است چون با توجه به دورنمایی که از نقش و اهمیت آنتولوژی ها در وب معنایی وجود دارد، نیازمند روشهایی هستیم که با حداقل دخالت نیروی انسانی، قادر به ارزیابی یک آنتولوژی باشند. • توجه به ویژگی های وب معنایی برای ارائه یک روش ارزیابی آنتولوژی که با نیازهای وب معنایی سازگار باشد مهم است. بدین ترتیب باید context آنتولوژی را نیز در روش ارزیابی دخیل نماییم.
منابع [1] H. Alani, Ch. Brewster, "Metrics for Ranking Ontologies", University of Southampton and University of Sheffield, EON 2006. [2] X. Zhang, G. Cheng, Y. Qu, "Ontology Summarizatoin Based on RDF Sentence Graph", 16th International World Wide Web Conference, 2007. [3]S. Dasgupta and Y. Lee, "Relation Oriented Ontology Summerization". 2007,University of Missouri - KC. [4] X. Zhang, H. Li, Y. Qu, "Finding Important Vocabulary within Ontology", 1st Asian Semantic Web Conference (ASWC), 2006.
با سپاس از توجه شما http://Ahmad.Estiri.fumblog.um.ac.ir