1 / 22

یک الگوریتم مبتنی بر تحلیل پیوند برای رتبه ‌ بندی پرس ‌ وجوی SPARQL

یک الگوریتم مبتنی بر تحلیل پیوند برای رتبه ‌ بندی پرس ‌ وجوی SPARQL. استاد راهنما: دکتر محسن کاهانی ارائه دهنده: اعظم فیض ‌ نیا. فهرست مطالب. مقدمه ضرورت انجام پژوهش هدف از انجام پژوهش روش‌های موجود مشکلات و چالش‌ها روش پیشنهادی ارزیابی تحلیل نتایج جمع بندی کارهای آینده. مقدمه.

rowa
Download Presentation

یک الگوریتم مبتنی بر تحلیل پیوند برای رتبه ‌ بندی پرس ‌ وجوی SPARQL

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. یک الگوریتم مبتنی بر تحلیل پیوند برای رتبه‌بندی پرس‌وجوی SPARQL استاد راهنما: دکتر محسن کاهانی ارائه دهنده: اعظم فیض‌نیا

  2. فهرست مطالب • مقدمه • ضرورت انجام پژوهش • هدف از انجام پژوهش • روش‌های موجود • مشکلات و چالش‌ها • روش پیشنهادی • ارزیابی • تحلیل نتایج • جمع بندی • کارهای آینده

  3. مقدمه • مستقل از پرس­وجو • محاسبه محبوبیت نتایج براساس تحلیل پیوندهای گراف داده­ها • وابسته به پرس­وجو • محاسبه میزان مرتبط بودن نتایج با پرس­وجوی کاربر براساس تحلیل محتوا 3

  4. ضرورت انجام پژوهش حجم زیاد داده‌های موجود در وب معنایی (بیش از 52 بیلیون سهگانه در مخازن تا سال 2012) وب معنایی متفاوت بودن معنای پیوندها ساخت­یافتگی داده­ها امکان ادغام داده­های مجموعه­داده­های مختلف نیاز به موتورهای جستجو برای بازیابی اطلاعات وب معنایی امکان اِعمال پرس­وجوهای ساخت­یافته SPARQL نیاز به روش‌های رتبه‌بندی جدید در موتورهای جستجوی وب معنایی در نظر گرفتن تفاوت پیوندها در نظر گرفتن اصالت داده‌ها

  5. هدف انجام پژوهش

  6. تخصیص وزن خودکار به پیوند‌ها • Sindice Semantic Web Search Engine, Ding,LF-IDF • مدل سلسله مراتبی • لایه‌ی بالا، گراف مجموعه‌داده‌ها • لایه‌ی پایین، گراف موجودیت‌ها • [Nie2005]

  7. اجمالی بر کارهای گذشته

  8. رتبه‌بندی SPARQL SELECT DISTINCT ?player WHERE { ?player dbpp:clubs ?x; dbpediaowl:birthPlace ?z. dbr:Steven_Gerrarddbpp:clubs ?x; dbpediaowl:birthplace ?z. } • عدم پوشش کامل نتایج توسط روش‌های تطبیق دهنده‌ی رتبه موجودیت • شهرت یک موجودیت و یک ویژگی و یک مقدار ویژگی نمی‌تواند دلیلی بر معتبر بودن و شهرت یک ادعا باشد. • روش SPRING • ایده اصلی = رتبه‌بندی براساس توافق بین مجموعه‌داده‌ها • وجود موجودیت‌های یکسان با URIمتفاوت در مجموعه‌داده‌های مختلف ابرLOD • استفاده از پیوند SameAs • پیوندهای دوطرفه • پیوندهای یک طرفه • روش رتبه بندی براساس شباهت نتایج • اندازه‌گیری شباهت بین نتایج براساس خصیصه‌های و مقادیر خصیصه‌ی یکسان dbpp:clubs dbpp:clubs ?x Steven_Gerrard ?player ?z dbpediaowl:birthPlace dbpediaowl:birthPlace

  9. هدف روش پیشنهادی • محاسبه رتبه زیرگراف‌های پاسخ پرسش‌های SPARQL براساس رتبه‌ی سه‌گانه‌های تشکیل دهنده‌ی آن‌ها • حل مشکلعدم پوشش کامل نتایجدررتبه‌بندی • محاسبه رتبه‌ی سه‌گانه‌ها براساس رتبه‌ی مجموعه‌داده‌های بیان‌کننده‌ی آن‌ها • در نظر گرفتناصالت داده‌هادررتبه‌بندی • حل مشکلتخصیص وزن پایین به برچسب‌های پیوند پرتکرار با اهمیت از طریق یک روش جدید اندازه‌گیری اهمیت برچسب پیوند مبتنی بر نوع برچسب دررتبه‌بندی • محاسبه رتبه‌ی مجموعه‌داده‌ها براساس روش‌های تحلیل پیوند موجودیت

  10. مدل داده

  11. مدل داده...

  12. الگوریتم رتبه­بندی • محاسبه­ی رتبه­یهر مجموعه­داده با استفاده از تعميم فرمول PageRankروی گراف وزن‌دارِ مجموعه‌داده‌ها • رتبه‌ی سه‌گانه‌ی tبرابر است با میانگین رتبه‌ی مجموعه‌داده‌های آن:

  13. الگوریتم تخصیص وزن

  14. ارزیابی • 2 • 1 • مجموعه داده و ابزار مورد استفاده برای پیاده­سازی • پیاده­سازی با استفاده از زبان برنامه­نویسی جاوا • انتخاب مجموعه­داده BTC2012 (Billion Triple Challenge) • بخش‌های timbl، datahub، freebase و rest از دُور اول خزش • قالب NQUAD • استفاده از کتابخانه nxparser برای پردازش داده­ها • تعداد سه­گانه­ها: 103,254,464 • تعداد مجموعه‌داده‌ها: 249 • تعداد مجموعه‌پیوندها: 636 • استفاده از SQL Serverبرای ذخیره­ی داده­ها • هدف آزمایش اول: • دقتروش خودکار تخصیص وزن پیشنهادی با روش خودکارLF-IDFدر الگوریتم Ding • هدف آزمایش دوم: • اثبات عدم پوشش کامل نتایج توسط روش­های تطبیق دهنده‌ی رتبه‌یموجودیت در رتبه­بندی پرس­وجوهای مختلف SPARQL

  15. ارزیابی دقت روش تخصیص وزن • معیار وروش انجام ارزیابی • معیار ارزیابی: میزان خطا از لیست استاندارد • روش ساخت لیست استاندارد: • تنظیم پرسشنامه براساس روش AHP(Analytical Hierarchy Process) برای معیارهای نشان دهنده‌ی شهرت مجموعه‌داده‌ها • شرکت کنندگان: • 3 دانشجوی دکتری با حدود 4 سال فعالیت در زمینه داده‌های پیوندی • 3 دانشجوی کارشناسی‌ارشد با حدود 2 سال فعالیت در زمینه داده‌های پیوندی • میانگین درصد وزن معیارها براساس نظر متخصصان داده‌های پیوندی

  16. نتایج ارزیابی دقت روش تخصیص وزن • پیاده‌سازی روش پیشنهادی • تفکیک پیوندهای عام و خاص براساس پیوندهای تعریف شده برای owl:thing • پیوندهای عام: پیوندهایی با دامنهی owl:thing • مقایسه لیست استاندارد، روش پیشنهادی و روش Ding: • میزان خطا از لیست استاندارد: • روش پیشنهادی: 0/34 • روش Ding: 0/41

  17. ارزیابی • 1 • 2 • مجموعه داده و ابزار مورد استفاده برای پیاده­سازی • پیاده­سازی با استفاده از زبان برنامه­نویسی جاوا • انتخاب مجموعه­داده BTC2012 (Billion Triple Challenge) • بخش‌های timbl، datahub، freebase و rest از دُور اول خزش • قالب NQUAD • استفاده از کتابخانه nxparser برای پردازش داده­ها • تعداد سه­گانه­ها: 103,254,464 • تعداد مجموعه‌داده‌ها: 249 • تعداد مجموعه‌پیوندها: 636 • استفاده از SQL Serverبرای ذخیره­ی داده­ها • هدف آزمایش اول: • دقتروش خودکار تخصیص وزن پیشنهادی با روش خودکارLF-IDFدر الگوریتم Ding • هدفآزمایش دوم: • اثبات عدم پوشش کاملنتایج توسط روش­های تطبیق دهنده‌ی رتبه‌یموجودیت در رتبه­بندی پرس­وجوهای مختلف SPARQL

  18. اثبات عدم پوشش کامل نتایج توسط روش­های تطبیق دهنده‌ی رتبه‌ی موجودیت

  19. اثبات عدم پوشش کامل نتایج توسط روش­های تطبیق دهنده‌ی رتبه‌ی موجودیت... • معیار و روش انجام ارزیابی • معیار ارزیابی: درصد نتایج قابل رتبه‌بندی • استفاده از پرس‌وجوهای محک استخراج شده از لاگ پرس‌وجوهای SPARQLدر DBPEDIAتوسط [Mor2011] • انتخاب پرس‌وجوهای شماره 1 و 4 با توجه به مجموعه داده آزمایش • درصد پوشش روش پیشنهادی، روش مبتنی بر شباهت نتایج و روش SPRING: • توضیح: هر سه‌گانه حداقل در یک مجموعه‌داده بیان شده است. • پرس‌وجوها در پیوست 1 آورده شده است.

  20. آنچه مرا نکشد، قوی ترم می سازد. فریدریش ویلهلم نیچه

More Related