220 likes | 544 Views
یک الگوریتم مبتنی بر تحلیل پیوند برای رتبه بندی پرس وجوی SPARQL. استاد راهنما: دکتر محسن کاهانی ارائه دهنده: اعظم فیض نیا. فهرست مطالب. مقدمه ضرورت انجام پژوهش هدف از انجام پژوهش روشهای موجود مشکلات و چالشها روش پیشنهادی ارزیابی تحلیل نتایج جمع بندی کارهای آینده. مقدمه.
E N D
یک الگوریتم مبتنی بر تحلیل پیوند برای رتبهبندی پرسوجوی SPARQL استاد راهنما: دکتر محسن کاهانی ارائه دهنده: اعظم فیضنیا
فهرست مطالب • مقدمه • ضرورت انجام پژوهش • هدف از انجام پژوهش • روشهای موجود • مشکلات و چالشها • روش پیشنهادی • ارزیابی • تحلیل نتایج • جمع بندی • کارهای آینده
مقدمه • مستقل از پرسوجو • محاسبه محبوبیت نتایج براساس تحلیل پیوندهای گراف دادهها • وابسته به پرسوجو • محاسبه میزان مرتبط بودن نتایج با پرسوجوی کاربر براساس تحلیل محتوا 3
ضرورت انجام پژوهش حجم زیاد دادههای موجود در وب معنایی (بیش از 52 بیلیون سهگانه در مخازن تا سال 2012) وب معنایی متفاوت بودن معنای پیوندها ساختیافتگی دادهها امکان ادغام دادههای مجموعهدادههای مختلف نیاز به موتورهای جستجو برای بازیابی اطلاعات وب معنایی امکان اِعمال پرسوجوهای ساختیافته SPARQL نیاز به روشهای رتبهبندی جدید در موتورهای جستجوی وب معنایی در نظر گرفتن تفاوت پیوندها در نظر گرفتن اصالت دادهها
تخصیص وزن خودکار به پیوندها • Sindice Semantic Web Search Engine, Ding,LF-IDF • مدل سلسله مراتبی • لایهی بالا، گراف مجموعهدادهها • لایهی پایین، گراف موجودیتها • [Nie2005]
رتبهبندی SPARQL SELECT DISTINCT ?player WHERE { ?player dbpp:clubs ?x; dbpediaowl:birthPlace ?z. dbr:Steven_Gerrarddbpp:clubs ?x; dbpediaowl:birthplace ?z. } • عدم پوشش کامل نتایج توسط روشهای تطبیق دهندهی رتبه موجودیت • شهرت یک موجودیت و یک ویژگی و یک مقدار ویژگی نمیتواند دلیلی بر معتبر بودن و شهرت یک ادعا باشد. • روش SPRING • ایده اصلی = رتبهبندی براساس توافق بین مجموعهدادهها • وجود موجودیتهای یکسان با URIمتفاوت در مجموعهدادههای مختلف ابرLOD • استفاده از پیوند SameAs • پیوندهای دوطرفه • پیوندهای یک طرفه • روش رتبه بندی براساس شباهت نتایج • اندازهگیری شباهت بین نتایج براساس خصیصههای و مقادیر خصیصهی یکسان dbpp:clubs dbpp:clubs ?x Steven_Gerrard ?player ?z dbpediaowl:birthPlace dbpediaowl:birthPlace
هدف روش پیشنهادی • محاسبه رتبه زیرگرافهای پاسخ پرسشهای SPARQL براساس رتبهی سهگانههای تشکیل دهندهی آنها • حل مشکلعدم پوشش کامل نتایجدررتبهبندی • محاسبه رتبهی سهگانهها براساس رتبهی مجموعهدادههای بیانکنندهی آنها • در نظر گرفتناصالت دادههادررتبهبندی • حل مشکلتخصیص وزن پایین به برچسبهای پیوند پرتکرار با اهمیت از طریق یک روش جدید اندازهگیری اهمیت برچسب پیوند مبتنی بر نوع برچسب دررتبهبندی • محاسبه رتبهی مجموعهدادهها براساس روشهای تحلیل پیوند موجودیت
الگوریتم رتبهبندی • محاسبهی رتبهیهر مجموعهداده با استفاده از تعميم فرمول PageRankروی گراف وزندارِ مجموعهدادهها • رتبهی سهگانهی tبرابر است با میانگین رتبهی مجموعهدادههای آن:
ارزیابی • 2 • 1 • مجموعه داده و ابزار مورد استفاده برای پیادهسازی • پیادهسازی با استفاده از زبان برنامهنویسی جاوا • انتخاب مجموعهداده BTC2012 (Billion Triple Challenge) • بخشهای timbl، datahub، freebase و rest از دُور اول خزش • قالب NQUAD • استفاده از کتابخانه nxparser برای پردازش دادهها • تعداد سهگانهها: 103,254,464 • تعداد مجموعهدادهها: 249 • تعداد مجموعهپیوندها: 636 • استفاده از SQL Serverبرای ذخیرهی دادهها • هدف آزمایش اول: • دقتروش خودکار تخصیص وزن پیشنهادی با روش خودکارLF-IDFدر الگوریتم Ding • هدف آزمایش دوم: • اثبات عدم پوشش کامل نتایج توسط روشهای تطبیق دهندهی رتبهیموجودیت در رتبهبندی پرسوجوهای مختلف SPARQL
ارزیابی دقت روش تخصیص وزن • معیار وروش انجام ارزیابی • معیار ارزیابی: میزان خطا از لیست استاندارد • روش ساخت لیست استاندارد: • تنظیم پرسشنامه براساس روش AHP(Analytical Hierarchy Process) برای معیارهای نشان دهندهی شهرت مجموعهدادهها • شرکت کنندگان: • 3 دانشجوی دکتری با حدود 4 سال فعالیت در زمینه دادههای پیوندی • 3 دانشجوی کارشناسیارشد با حدود 2 سال فعالیت در زمینه دادههای پیوندی • میانگین درصد وزن معیارها براساس نظر متخصصان دادههای پیوندی
نتایج ارزیابی دقت روش تخصیص وزن • پیادهسازی روش پیشنهادی • تفکیک پیوندهای عام و خاص براساس پیوندهای تعریف شده برای owl:thing • پیوندهای عام: پیوندهایی با دامنهی owl:thing • مقایسه لیست استاندارد، روش پیشنهادی و روش Ding: • میزان خطا از لیست استاندارد: • روش پیشنهادی: 0/34 • روش Ding: 0/41
ارزیابی • 1 • 2 • مجموعه داده و ابزار مورد استفاده برای پیادهسازی • پیادهسازی با استفاده از زبان برنامهنویسی جاوا • انتخاب مجموعهداده BTC2012 (Billion Triple Challenge) • بخشهای timbl، datahub، freebase و rest از دُور اول خزش • قالب NQUAD • استفاده از کتابخانه nxparser برای پردازش دادهها • تعداد سهگانهها: 103,254,464 • تعداد مجموعهدادهها: 249 • تعداد مجموعهپیوندها: 636 • استفاده از SQL Serverبرای ذخیرهی دادهها • هدف آزمایش اول: • دقتروش خودکار تخصیص وزن پیشنهادی با روش خودکارLF-IDFدر الگوریتم Ding • هدفآزمایش دوم: • اثبات عدم پوشش کاملنتایج توسط روشهای تطبیق دهندهی رتبهیموجودیت در رتبهبندی پرسوجوهای مختلف SPARQL
اثبات عدم پوشش کامل نتایج توسط روشهای تطبیق دهندهی رتبهی موجودیت
اثبات عدم پوشش کامل نتایج توسط روشهای تطبیق دهندهی رتبهی موجودیت... • معیار و روش انجام ارزیابی • معیار ارزیابی: درصد نتایج قابل رتبهبندی • استفاده از پرسوجوهای محک استخراج شده از لاگ پرسوجوهای SPARQLدر DBPEDIAتوسط [Mor2011] • انتخاب پرسوجوهای شماره 1 و 4 با توجه به مجموعه داده آزمایش • درصد پوشش روش پیشنهادی، روش مبتنی بر شباهت نتایج و روش SPRING: • توضیح: هر سهگانه حداقل در یک مجموعهداده بیان شده است. • پرسوجوها در پیوست 1 آورده شده است.
آنچه مرا نکشد، قوی ترم می سازد. فریدریش ویلهلم نیچه