270 likes | 513 Views
رابط کاربری در وب معنایی : سیستم های پرس و جو زبان طبیعی. ساختار ارائه. مقدمه رابط های پرس و جو زبان طبیعی در وب معنایی بررسی قابلیت استفاده رابط های پرس و جو زبان طبیعی. مقدمه. تقسیم بندی سیستم ها بر اساس دامنه تحت حمایت. دامنه بسته دامنه باز
E N D
رابط کاربری در وب معنایی : سیستم های پرس و جو زبان طبیعی
ساختار ارائه • مقدمه • رابط های پرس و جو زبان طبیعی در وب معنایی • بررسی قابلیت استفاده رابط های پرس و جو زبان طبیعی سیستم های پرس و جوی زبان طبیعی
مقدمه سیستم های پرس و جوی زبان طبیعی
تقسیم بندی سیستم ها بر اساس دامنه تحت حمایت • دامنه بسته • دامنه باز • یافتن هستی شناسی های مربوط برای جواب به پرس و جوی کاربر • شناسایی نگاشت های صحیح معنایی • ترکیب اطلاعات ناهمگون • مقیاس پذیری • ناهمگونی سطح بالا • مقابله با داده های ناکامل و نویزی سیستم های پرس و جوی زبان طبیعی
تقسیم بندی دیگر • سیستم های مبتنی بر الگو • این سیستم ها سعی دارند تا الگوهای قطعی که در پرس و جو کاربر تکرار می شوند را شناسایی کنند . این الگوها برای تفسیر طبیعت و ماهیت درخواست بازیابی اطلاعات که به صورت ضمنی در پرس و جو وجود دارد به کار می رود. • Querix • سیستم های پرس و جو زبان طبیعی کامل • این سیستم ها هیچگونه ساختار گرامری برای زبان که پرسش و جملات درخواست های بازیابی اطلاعات به کار می رود ، تحمیل نمی کنند . در عوض از تکنیکهای پردازش زبان طبیعی پیچیده برای تجزیه ، تفسیر و ترجمه ورودی به زبان پرس و جو سازگار با وب معنایی استفاده می کنند. • PANTO • سیستم های زبان طبیعی کنترل شده • این سیستم ها بر زبان طبیعی کنترل شده تکیه دارند، هدف این است که با محدود کردن ورودی های کاربر به یک زیرمجموعه بدون ابهام از درخواست های پرس و جوی امکان پذیر ، یک پردازش گر پرس و جو زبان طبیعی بتواند پرس و جو های کاربر را تفسیر کند و آن را به پرس و جو فرمال معادل معنایی تبدیل کند. • CNL خاص (SWAT که از ACE استفاده می کند) • هدایتگر (Ginseng) سیستم های پرس و جوی زبان طبیعی
Querix: يك رابط زبان طبيعي بر اساس ديالوگ هاي صریح • سوالات کامل انگلیسی • رفع ابهام از طریق همفکری با کاربر و استفاده از دیالوگ های صریح • ساده است و تکنولوژی معناگرای پیچیده ای استفاده نمی کند. (یک مجموعه محدود از ابزارهای NLP را به خدمت می گیرد. • اين سيستم شامل هفت بخش اصلي است: • رابط كاربر • مدير هستان شناسی تولید برچسب هاي منابع با به دست آوردن مترادف ها از طريق WordNet • تحليل گر پرس و جو Stanford parser برای تولید درخت نحو تولید دنباله هایی به شکل Q-V-N-P-N-Q-V-P-N • مركز تطبيق دهنده استفاده از الگوهای هیوریستیک برای تطبیق پرس و جوهای کاربر به سه گانه های هستان شناسی (به طور مثالQ-V-N) • توليدكننده پرس و جو SPARQL • جزء محاوره اي • يك لايه دسترسي به هستان شناسی Jena و Pellet reasoner سیستم های پرس و جوی زبان طبیعی
Ginseng: يك رابط کاربری زبان طبيعي با ورودي هاي هدايت شده • معماری : • دستور زبان چند سطحی • بخش ایستا که در ابتدا وجود دارد وشامل قوانين مستقل از هستی شناسی است كه ساختار جملات عمومي را مشخص مي كند • بخش پویا که در زمان بارگذاری آنتولوژی ایجاد می شود • پارسر افزایشی • گزینه های کاربر (کنترل شده و محدود به واژگان آنتولوژی) • پرس و جوهاي RDQL • لایه دسترسی به هستان شناسی (Jena) • محدودیت : نمي تواند همه پرس و جوهاي NL را به واسطه ساختارش مورد پردازش قرار دهد سیستم های پرس و جوی زبان طبیعی
نمونه ای از قوانین گرامر چند سطحی Ginseng (3) <subject> ::= state | ?state | <RDF#type> <geo#state> (type=[<geo#state>]) (4) <verb> ::= borders <object> | - | <geo#borders> <<object>> (domain=[<geo#state>], range=[<geo#state>]) (5) <object> ::= New York City | ?newyorkcity | <geo#newYorkCity> (type=[<geo#city>, <geo#capital>]) (6) <object> ::= Mississippi | ?mississippi | <geo#mississippiRiver> (type=[<geo#river>]) (7) <object> ::= Mississippi | ?mississippi | <geo#mississippiState> (type=[<geo#state>]) (1) <START> ::= <OQ> ? | SELECT <<OQ>> | WHERE (<<OQ>>) (2a) <OQ> ::= which <subject> <verb> | <<subject>> | <<subject:1>> <<verb>> (2b) <OQ> ::= what <subject> <verb> | <<subject>> | (<<subject:1>> <<subject>>) (<<subject:1>> <<verb>>) سیستم های پرس و جوی زبان طبیعی
NLP_Reduce: يك رابط ساده • مجموعه کوچکی از عملگرهای پردازش زبان طبیعی را استفاده می کند: • توسعه مترادف ها (WordNet) • ریشه یابی (Porter Stemmer) • پردازش پرس و جوها به صورت بسته ای از کلمات • برای ورودی های ناکارا ، قوی است • قابل حمل است • می تواند ورودی های غیرگرامری را بپذیرد (زبان طبیعی کامل ، بخشی از جمله یا کلمات کلیدی) • محدودیت : نمی تواند به پرس و جوهایی که نیاز به ساختار وابستگی بین عناصر دارند را پاسخ دهد سیستم های پرس و جوی زبان طبیعی
SWAT • یک رابط زبان طبیعی کنترل شده است که اجازه می دهد که کاربران پرس و جوها را در یک CNL خاص که Attempto Controlled English (ACE)نامیده می شود فرموله کنند.(جملات ساده ، مرکب و پرسشی) • ابهام را از بین می برد و نیاز به ابزارهای پیچیده پردازش زبان طبیعی ندارد • نیاز به آموزش کاربر دارد • محدودیت ها : • نیاز به آموزش کاربر دارد. (یادگیری زبان های کنترل شده بسیار آسان تر از زبان های رسمی است) • نیاز به بازنویسی دستی قوانین هنگامیکه از یک هستان شناسی جدید استفاده می شود ، دارد. • قابلیت حمل پایین سیستم های پرس و جوی زبان طبیعی
PANTO : یک رابط زبان طبیعی قابل حمل • بر پایه توجه ویژه به عبارتهای اسمی،این رابط یک مدل داده مبتنی بر سهگانگی را برای تحلیل نتایج درختهای تجزیه با استفاده از StanfordParserاتخاذ میکند. • تغییرات پیچیده در پرس و جوهای زبان طبیعی (مانند منفی سازی ، مبالغه و مقایسه) نیز بررسی شده است. • عبارتهای اسمی در درختهای تجزیه به صورت جفتهایی استخراج میشوند تا نمایشی میانی به نام QueryTriples شکل گیرد. • محدودیت : ارتباط با کاربران کم است. سیستم های پرس و جوی زبان طبیعی
AquaLog • AquaLog تعداد زیادی از تکنیکهای قوی را به روشی جدید ترکیب می کند تا پرس و جو های زبان طبیعی را با مفهوم کند و آنها را به نشانه گذاری معنایی تبدیل کند. • شامل یک جزء فراگیرنده است که عملکرد سیستم را در پاسخ به اصطلاحات خاص به کار برده شده توسط کاربر نهایی بهبود می بخشد. • از پلتفرم GATE NLP ، الگوریتم های ارزیابی رشته ، WordNet و سرویس های جدید تشابه مبتنی بر هستی شناسی برای روابط و کلاسها استفاده می کند تا پرس و جوی کاربر را با توجه به پایگاه دانش هدف تعبیر نماید. • به صورت بسیار زیادی بر پردازش زبان متکی است و احتیاج به جملات درست دستوری دارد. و از زبان طبیعی کنترل شده استفاده می کند. • دو ماژول اصلی: • جرء زبانی • سرویس تشابه رابطه (RSS) سیستم های پرس و جوی زبان طبیعی
AquaLog... • سرویس تشابه رابطه (RSS) • از کاربر برای رفع ابهام درخواست می کند • قابلیت کلیک بر روی OntoTripleها و نمایش ویژگی های آن • از مکانیزم یادگیری بهره می گیرد.(عملکرد در طول زمان بهبود می یابد) • بر روی جزئیات پروفایل کاربر متمرکز است • تعریف زمینه ( نگهداری دو نگاشت مجزا) • جامعه کاربران • محدودیت ها :برخی از سوالات از دیدگاه AquaLog ناهنجار به شمار می آیند و توسط AquaLog پشتیبانی نمی شوند: • پرس و جوهای عطفی • پرس و جوهایی شامل bracket • پرس و جوهایی که با عبارت “how many” آغاز می شوند • پرس و جوهایی که به شکل پرس و جوی کلمل نیستند سیستم های پرس و جوی زبان طبیعی
PowerAqua : پرس و جو در وب معنایی دامنه باز قادر است به پرس و جوها بوسیله مکان یابی و مجتمع کردن اطلاعات که می توانند در میان منابع معنایی ناهمگون توزیع شده باشند ، پاسخ دهد. • از ابهام زدایی پرس و جو ، ادغام دانش ( برای مجتمع سازی جواب های جزئی یا مشابه) و مکانیزم های رتبه بندی ، برای شناسایی دقیق ترین پاسخ حمایت می کند. سیستم های پرس و جوی زبان طبیعی
QuestIO • از آن جا که تمام استخراجات مربوط به طور خودکار از منابع هستی شناسی مشتق می شود، هیچ سفارشی سازی برای شروع QuestIO نیاز نیست. • در برابر اشتباهات در زبان پرس و جو بسیار قوی و پایدار می باشد و به کاربر آزادی برای وارد کردن پرس و جو با هر طول و فرمی را می دهد. • رفع ابهام در پرس و جوها با استفاده از استدلال و استنتاج در هستی شناسی انجام می شود. • سیستم ارتباطات ممکن بین جفت های مفاهیم را تحلیل می کند و آن ها را بر اساس چندین فاکتور مرتبط ، اولویت بندی می کند تا به تفسیر دقیق تر برسد. • مولفه ها : • KCIT : ابزاری برای شناسایی مفاهیم کلیدی می باشد. مفاهیم کلیدی شناسایی شده ، به منابع هستی شناسی مانند نمونه ها ، کلاس ها ، خصوصیت ها اشاره دارند. • جمع کننده متن :که همه کلمات پرس و جو که توسط KCIT شناسایی نشده اند ، اما می توانند در فرآیند تولید پرس و جوی رسمی مفید باشند ، جمع آوری می کند. • تحلیل گر پرس و جو سیستم های پرس و جوی زبان طبیعی
FREyA : يك رابط تعاملي دو نوع از محاوره درFREyA وجود دارد : محاوره ابهام زدايي برا ي حل ابهام شناسايي شده در سوال توسط كاربر(ocها) بر اساس كانون سوال يا نوع جواب محاوره نگاشت براي نگاشتPOC در سوال به يكOC پيشنهاد شده توسط كاربر FREyAتلاش نمي كند كه تمام سوال را در يك مرتبه تفسير كند ، بلكه اين عمل را براي هر جفت از OCها در هر لحظه انجام مي دهد. مكانيزم يادگيري (به ازای هر انتخاب به روز رسانی می شود.) ابهام زدايي تا حد ممكن و استفاده از مكانيزم ها ي رتبه بندي ، و تصحيح آنها در صورت نياز با استفاده از ويژگي ها ي تعاملي مد خودکار مد ForceDialog سیستم های پرس و جوی زبان طبیعی
ارزیابی قابلیت استفاده زبان طبیعی به عنوان یک رابط • برای یافتن پاسخهای بیشتر و دقیقتر به سوال مفید بودن NLI، پیشنهاد میشود که دوگانگی بین رویکردهای زبان طبیعی کامل و رویکردهای پرس و جو رسمی و مبتنی بر منطق شکسته شود و به عنوان انتهاهای زنجیره تشریفات در نظر گرفته شوند که آزادی زبانهای طبیعی کامل و ساختاریافتگی زبانهای پرس و جو رسمی در انتهای زنجیره قرار میگیرند. • در واقع در این بخش هدف این است که رویکردهای زبان طبیعی کامل و رویکردهای مبتنی بر منطق و رسمی به هم نزدیک شوند زیرا فرض بر این است که بهترین راه حل برای کاربران نهایی عادی جایی در میانه زنجیره تشریفات قرار دارد که داد و ستد بین آزادی و ساختاریافتگی را نشان میدهد. سیستم های پرس و جوی زبان طبیعی
مطالعه قابلیت استفاده • برخی ویژگی های این 4 رابط به شرح زیر است: • NLP_Reduce : بر اساس کلمات کلیدی ، بخشی از جمله و یا جمله کامل • Querix : جمله کامل • Ginseng : جملات و کلمات مبتنی بر منو و قابل پیش بینی • Semantic Crystal : نمایش گرافیکی ، قابل کلیک ، زبان پرس و جو فرمال • در این مطالعه از 48 کاربر خواسته شده است که یک سری عملیات بازیابی مشابه با هر یک از این چهار سیستم انجام دهند و اعلام کنند از کدام زبان پرس و جو بیشتر و از کدام کمتر خوششان آمده است و دلایل آن را نیز مطرح کنند. همچنین موارد زیر نیز سنجیده شده است: • زمان مورد نیاز کاربران برای انجام عملیات. • تعداد پرس و جو های لازم برای یافتن اطلاعات. • میزان موفقیت کاربران در یافتن جواب با استفاده از هر سیستم. • از کاربران خواسته شده است تا به پرسشنامه مربوط به میزان قابل استفاده بودن هر سیستم(SUS ، تست استانداردUsability ) پاسخ دهند. این آزمون جنبه های مختلف Usability مانند نیاز به پشتیبانی ، آموزش و پیچیدگی را پوشش می دهد. • پس از پر کردن این پرسشنامهها از کاربران خواسته شده است تا به پرسشنامه مقایسهای پاسخ دهند. سیستم های پرس و جوی زبان طبیعی
نتایج مطالعه قابلیت استفاده • نتایج مطالعه نشان میدهد که Querix و زبان پرس و جوی آن که اجازه استفاده از سوالات کامل انگلیسی ولی با عبارتهای آغازی محدود را میدهد به عنوان مفیدترین و دوستداشتنیترین رابط پرس و جو شناخته شده است. • با توجه به ترجیحات کاربران و با در نظر گرفتن سرعتی معلوم، بهترین راه حل برای کاربران عادی به سمت میانه اما در طرف طبیعی زنجیره تشریفات قرار دارد. • بررسی ها بر روی جستجوی مبتنی بر کلمات کلیدی در مقابل جستجو به صورت سوال کامل نشان می دهد که کاربران جملات پرس و جو کامل را می پذیرند ، اگر که نتایج بازیابی شده بهتر باشد. • اگرچه که SemanticCrystal مشکل است ، اما برخی کاربران به امتیاز گرافیکی بودن آن اشاره کرده اند. سیستم های پرس و جوی زبان طبیعی
نتیجه گیری • در این گزارش به بررسی رابط های زبان طبیعی برای پرس و جو در وب معنایی پرداختیم. این رابط ها را می توان به سه دسته کلی تقسیم بندی کرد : • 1- سیستم های مبتنی بر الگو ، 2- سیستم های پرس و جو زبان طبیعی کامل و 3- سیستم های زبان طبیعی کنترل شده. • مهمترین چالش هایی که این رابط ها با آن روبرو هستند : • 1- مساله مقیاس پذیری است که با توجه به حجم زیاد و ناهمگونی وب معنایی و رشد روز افزون آن با مسایلی مواجه است و 2- مساله ابهام زبان طبیعی می باشد که امری اجتناب ناپذیر است. • رابط های مختلف برای غلبه بر مشکل ابهام از تکنیک های زیادی بهره گرفته اند. • برخی از تکنیک های پیچیده پردازش زبان طبیعی استفاده می کنند . • برخی از آن ها از یک زبان کنترل شده ، به منظور از بین بردن ابهام استفاده می کنند. • و برخی رابط ها نیز از پنجره محاوره و بازخورد کاربر برای ابهام زدایی بهره می برند ، که در این راستا تکنیک های یادگیری نیز برای افزایش کارایی در طول زمان به خدمت گرفته می شود. • مطالعه بر روی قابلیت استفاده زبان های طبیعی برای پرس وجو در وب معنایی ، نشان می دهد که بهترین راه حل برای کاربران عادی به سمت میانه اما در طرف طبیعی زنجیره تشریفات قرار دارد. و رابطی که از پرس و جوهای طبیعی و نمایش گرافیکی حمایت کند از محبوبیت بیشتری برخوردار است. سیستم های پرس و جوی زبان طبیعی
جدول مقایسه ویژگی های رابط ها سیستم های پرس و جوی زبان طبیعی
مراجع • [Ber2005a] A. Bernstein, E. Kaufmann, C. Kaiser, “Querying the semantic web with ginseng:A guided input natural language search engine”, In: 15th Workshop on Information Technologies and Systems, Las Vegas, NV, 2005, pp. 112–126. • [Ber2005b] A. Bernstein, E. Kaufmann, A. Göhring, C. Kiefer, “Querying Ontologies: A Controlled English Interface for End-users”, The Semantic Web – ISWC, Lecture Notes in Computer Science Volume 3729, 2005, pp. 112-126. • [Col1999] M. Collins, “Head-driven Statistical Models for Natural Language Parsing”, PhD thesis, University of Pennsylvania, 1999. • [Dam2008] D. Damljanovic, V. Tablan, K. Bontcheva, “A Text-based Query Interface to OWL Ontologies”,2008. • [Dam2012] D. Damljanovic, M. Agatonovic, H. Cunningham, “FREyA: an Interactive Way of Querying Linked Data using Natural Language”, The Semantic Web: ESWC 2011 Workshops, Lecture Notes in Computer Science Volume 7117, 2012, pp. 125-138. • [Faa2006] A. Faaborg, H. Lieberman, “A goal-oriented web browser”, In CHI '06: Proceedings of the SIGCHI conference on Human Factors in computing systems, New York, USA, 2006, pp. 751-760. • [Fuc2003] M. Fuchs, C. Niederee, M. Hemmje, J. Neuhold, “Supporting model-based construction of semantic-enabled web applications”, In Proceedings of the Fourth International Conference on Web In formation Systems Engineering, WISE '03, pages 232, Washington, DC, USA, 2003. • [Hac2012] G. Hachey, D. Gasevic, “Semantic Web User Interfaces: A Systematic Mapping Study and Review”, semantic-web-journal, 2012. • [Har2009] O. Hartig, J. Zhao, “Using Web Data Provenance for Quality Assessment”, In:Proceedings of the First International Workshop on the Role of Semantic Web in Provenance Management (SWPM'09) at the International Semantic Web Conference (ISWC'09), Washington D.C., USA, 2009. • [Kam1993] H. Kamp, U. Reyle, “From Discourse to Logic: Introduction to Modeltheoretic Semantics of Natural Language”, Kluwer, Dordrecht Boston London, 1993. سیستم های پرس و جوی زبان طبیعی
مراجع • [Kau2006] E. Kaufmann, A. Bernstein, R. Zumstein, “Querix: A natural language interface to query ontologies based on clarification dialogs”, In: 5th ISWC, Athens, GA, 2006, pp.980–981. • [Kau2007a] E. Kaufmann, A. Bernstein, “How useful are natural language interfaces to the semantic web for casual end-users?”, In: Proceedings of the Forth European Semantic Web Conference (ESWC 2007), Innsbruck, Austria, 2007. • [Kau2007b] E. Kaufmann, A. Bernstein, L. Fischer, “NLP_Reduce: A na¨ıve but domain-independent natural language interface for querying ontologies”, In: 4th ESWC,Innsbruck, 2007. • [Kau2010] E. Kaufmann, A. Bernstein, “Evaluating the Usability of Natural Language Query Languages and Interfaces to Semantic Web Knowledge Bases”, Journal of Web Semantics: Science and Agents on the World Wide Web, 2010. • [Lop2005] V. Lopez, M. Pasin, E. Motta, “AquaLog: An Ontology-Portable Question Answering System for the Semantic Web”, ESWC, LNCS 3532, pp. 546 – 562, 2005. • [Lop2007] V. Lopez, E. Motta, M. Pasin, “Aqualog: An ontology-driven question answering system for organizational semantic intranets”, Web Semantics: Science,Services and Agents on the World Wide Web 5(2), 2007, pp. 72-105. • [Lop2012] V. Lopez, M. Fernandez, E. Motta, N. Stieler, “PowerAqua: supporting users in querying and exploring the semantic web”, Semantic Web – Interoperability, Usability, Applicability, 3(3), 2012, pp. 249–265. • [Sma2008] P. Smart, “Controlled Natural Languages and the Semantic Web”, School of Electronics and Computer Science University of Southampton, Southampton, SO17 1BJ, United Kingdom, 27th, 2008. • [Tan2001] L.R. Tang, R.J. Mooney, “Using Multiple Clause Constructors in Inductive Logic Programming for Semantic Parsing”, 12th European Conference on Machine Learning, Freiburg, Germany, 2001, pp. 466-477. • [Wan2007] C. Wang, M. Xiong, Q. Zhou, Y. Yu, “PANTO: A Portable Natural Language Interface to Ontologies”, The Semantic Web: Research and Applications, 2007. سیستم های پرس و جوی زبان طبیعی