280 likes | 490 Views
پاسخگويي به سؤالات كاربر با يك رويكرد معنايي. سميه اسدی فر. عناوين. شرح مسأله سامانههاي پرسش و پاسخ هستانشناسي WordNet مبانی نظری دستور واژهای-نقشی سامانه SBUQA الگوهاي پيشنهادي و ارزيابي سامانه بهبود و توسعهيافته (E-SBUQA) نتيجهگيري و كارهاي آتي مراجع. شرح مسأله.
E N D
پاسخگويي به سؤالات كاربر با يك رويكرد معنايي سميه اسدی فر
عناوين • شرح مسأله • سامانههاي پرسش و پاسخ • هستانشناسي WordNet • مبانی نظری دستور واژهای-نقشی • سامانه SBUQA • الگوهاي پيشنهادي و ارزيابي سامانه بهبود و توسعهيافته(E-SBUQA) • نتيجهگيري و كارهاي آتي • مراجع پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
شرح مسأله • 1- بازيابي اطلاعات Information Retrieval)( • 2- سامانههاي پرسش و پاسخ (Question Answering System) • 3- سامانه SBUQA(ShahidBeheshti University Question Answer) • 4- گرامر واژهاي- نقشي (Lexical Functional Grammer) • 5- هستانشناسي WordNet • 6- نوآوريهاي پاياننامه • بهبود الگوهاي پاسخ پرسشهاي مطرحشده در سامانه SBUQA • افزودن الگوي پاسخ پرسش چرايي(Why) • افزودن الگوي پاسخ پرسش آيا(Yes-No) پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
استخراج جواب دقيق جواب پرسش هدف سوال استخراج پارگرافهاي مربوط فرموله کردن پرسوجو بازيابي اسناد پردازش پرسش موتور جستجو وب پيکره متني سامانههاي پرسش و پاسخ 1- انواع سامانههاي پرسش و پاسخ • حوزه- باز • حوزه محدود • مبتني بر پايگاه دانش 2- مباني سامانههای پرسش و پاسخ حوزه- باز • دريافت پرسش کاربر و پردازش آن • بازيابی اطلاعات (موتور جستجويی است که در وب صفحات و در مجموعه متون، متنهاي مرتبط را مييابد) • استخراج پاسخ نهايی از مستندات بازيابی شده. پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
3- دسته بندی سامانههاي پرسش و پاسخ • 4- رقابتهاي موجود در زمينه پرسش و پاسخ • كنفرانس بازيابي متن (TREC) Text REtrieval Conference • كارگاه آموزشي NTCIR(QAC- Question Answering Callenge) • پروژه Halo • كارگاه آموزشيCLEF پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
هستانشناسي WordNet public void go() throws JWNLException { demonstrateListOperation(CAT); demonstrateListOperation(DOG); demonstrateSymmetricRelationshipOperation(FUNNY, DROLL); } • در سال 2002 توسط آزمايشگاه علوم شناختي دانشگاه Princeton ايجاد شد. • هسته اصلی در اين هستان شناسي synset است. • Synset ها بصورت سلسله مراتبی در رابطهی فوق کلاسو زیر کلاسسازماندهی شدهاند. Synonym - پاسخ، هم معني با واژه مورد نظراست.Guy,Cat))و (answer,say) Holonym - واژه مورد نظر، عضوي از پاسخ است.(felidate, cat)و (enjoy,like) Hypernym – پاسخ، مافوق واژه مورد نظراست.(Cat,felied) Hyponym - واژه مورد نظر، مافوق پاسخ است.((domestic cat,cat Troponyms : واژه مورد نظر شيوه خاصي براي پاسخ است.(speak,call) Meronym - واژه مورد نظر، داراي عناصر پاسخ است.(cat,pelage) Causes : واژه مورد نظر پاسخ را باعث ميشود.(kill,die) Direct hypernyms of "cat": [PointerTargetNode: [Synset: [Offset: 2037116] [POS: noun] Words: feline, felid -- (any of various lithe-bodied round-headed fissiped mammals many with retractile claws)] null] Direct hypernyms of "dog": [PointerTargetNode: [Synset: [Offset: 2000516] [POS: noun] Words: canine, canid -- (any of various fissiped mammals with nonretractile claws and typically long muzzles)] null] پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
واژگان نحو ساخت سازهاي ساخت نقشي بخش معنا بخش قواعد واجي دستور واژهای-نقشی ساخت سازه ای • زبانشناسي محاسبات • نظريه «زايا گشتاري چامسكي» در سال 1957: نظريه او فقط دانش زباني سخنگويان بومي يك زبان را توصیف می کند و نه چگونگي توليد و درك گفتار را. I will always be there to help you. گرامر واژهاي- نقشي نظريه مورد نياز براي سامانه پردازش زبان طبيعي نظريه مورد نياز براي سامانه پردازش زبان طبيعي ساخت نقشی • ساخت سازهاي ترتيب خطي و سلسله مراتب واژهها در گروهها را نشان ميدهد. براي نشاندادن ساخت سازهاي نياز به قواعد ساخت گروهي و نمودارهاي درختي است. • ساخت نقشي: در دستور واژهاي– نقشي هم همچون دستور سنتي، نقشهاي نحوي فاعل، مفعول و متمم وجود دارد كه به همراه مشخصههايي مثل زمان، حالت، شخصو شمار، ساخت نقشي را شكل ميدهند. • ساخت موضوعی:اطلاعات معنایی جمله را از طریق نقش های معنایی نشان می دهد.( کیک توسط علی خورده شد) هدف گرامر واژهاي- نقشي Cook( پذیرنده بهره ور عامل ) John cooked Mary a chicken in the garden پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
اسناد (بازيابيشده از موتور جستجو) تشكيل f-structure پرسش پيشپردازش سند تشكيل f-structure پرسش با الگوهاي تعريفشده براي پرسش و تشكيل مصداقهاي f-structure پاسخ بر اساس الگوهاي پاسخ پرسش تطبيقيافته تشكيل f-structure پاسخ امتيازدهي به جمله پاسخ بر اساس يكسانسازي توسعهيافتهf-structure هاي جمله پاسخ و مصداق پاسخ مرتبسازي جملات بر اساس امتياز آنها و استخراج عبارت همنوع با نوع مورد انتظار پرسش • سامانه SBUQA(ShahidBeheshti University Question Answer) LFG f-structure پرسش ورودي سند JAVARAP (Where,When,Which,WhoWhat,) LFG f-structure WordNet f-structure جمله پاسخ مصداق f-structure پاسخ JWNL پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
الگوهاي پرسش و پاسخ سامانه SBUQA پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
الگوهاي پرسش و پاسخ سامانه SBUQA پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
الگوهاي پرسش و پاسخ سامانه SBUQA پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
محيط و ابزار پيادهسازی در سامانه SBUQA • زبان برنامهنويسی: شیءگرای جاوا و به صورت اپلت جاوا، در محيط توسعه Oracle JDeveloper 10g • JWNL API:واسط WordNet به زبان جاوا، برای دسترسی به WordNet • تجزيه گر احتمالاتی (PCFG-Based Wide-Coverage LFG Parser)LFG f-structure: اين تجزيهگر، بازنمايي c-structure و f-structure جملات و متون انگليسي را توليد ميكند. c-structure با كمك تجزيه گر Charniak يا Bikel توليد ميشود و با الگوريتم حاشيهنويسي خودكارf-structure، ساختارf-structure به سبك تعريف شده DCU توليد ميگردد. • ابزار تشخيص مرجع ضمير(JAVARAP): پيش از آغاز عمليات جستجوی پاسخ، اسنادی که منبع جستجو هستند پردازش میشوند تا جملات تفکيک، و ضميرها با مراجعشان جايگزين شوند. Casstlerigg stone circles in Cumbria, is one of the earliest stone circles built and archaeologists attribute itto those early axe manufacturers. AS the builders grew more skilful, stone circles attained more precision, popularity and began to spread inland. Casstlerigg stone <-- it, Casstlerigg stone circles in Cumbria, is one of the earliest stone circles built and archaeologists attribute <Casstlerigg stone> to those early axe manufacturers. AS the builders grew more skilful, stone circles attained more precision, popularity and began to spread inland. پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
يکسانسازی توسعهيافته ساختهاینقشیدر سامانهي SBUQA حفره : اجزای مختلف الگوها (شامل subj، obj، adjunct، فعل و ...) به همراه نوع آنها پرکننده : مقادير (مصداقها)ای است که حفرهها با آن پر میشوند. :fsQساخت نقشی مصداق پاسخ fsA: ساخت نقشی پاسخ کانديد (جمله سند) سلسلهمراتب تعيينشده براي سنجش ميزان تطابق fsQ با fsA و نمادهاي تعريفشده براي هر تطابق تطابق تقريبی پرکنندههای ساير اجزای جمله (obj، subj, adjunct): - مقدار fsA، هم معنی (synonym) مقدار fsQ است. - مقدار fsQ, مافوق (hypernym) مقدار fsAاست. - مقدار fsA, مافوق (hypernym) مقدار fsQاست. - مقدار fsA، meronym مقدار fsQ است. - مقدار fsA، holonym مقدار fsQ است. برای تطابق تقريبی پرکنندهها نيز مراتبی به شکل زير تعريف شده است: تطابق تقريبی پرکنندههای از نوع فعل: - مقدار fsA، هم معنی (synonym) مقدار fsQ است. - مقدار fsA, نوع خاصی از (troponym) مقدار fsQ است. - مقدار fsQ, نوع خاصی از (troponym) مقدارfsA است. - مقدار fsQ, مافوق (hypernym) مقدار fsAاست. - مقدار fsA, مافوق (hypernym) مقدار fsQاست. پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
الگوهاي پيشنهادي و ارزيابي سامانه بهبود و توسعهيافته(E-SBUQA) • 1- پاسخگويي بهتر به سؤالات قبلي مطرح شده (Where,When,Which,Who و What) • اصلاح الگوي IIA • اصلاح الگوي IIIA • افزودن تمام الگوهاي پاسخ به الگوي مورد جستجو براي هر پرسش • افزودن الگوي فاعل تبديل شده به مفعول در پاسخ، به تمام الگوها غير از الگوي مجهول • 2- پاسخگويي به انواع سؤالات ديگر • الگوهای پاسخ پرسش why • الگوهاي پاسخ پرسشهاي Yes-No • 3- ارزيابی • معيارهاي ارزيابي • ارزيابي دو سامانه SBUQA و E-SBUQA براي الگوهاي اصلاح و اضافه شده • ارزيابی سامانه E-SBUQA براي پرسش Yes-No • ارزيابی سامانه E-SBUQA براي پرسش Why پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
اصلاح الگوي IIA در يك سامانه پرسش و پاسخ بهترين پاسخ آن است كه بيشترين تطابق را از نظر اجزاي جمله با پرسش داشته باشد چرا كه در حضور تعداد زيادي پاسخ كانديد، آن كه داراي بالاترين مرتبه تطابق است، به عنوان بهترين پاسخ استخراج خواهد شد. مرتبه تطابق نشاندهنده ميزان اعتماد سامانه به پاسخ خواهد بود. پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
اصلاح الگوي IIIA در يك سامانه پرسش و پاسخ بهترين پاسخ آن است كه بيشترين تطابق را از نظر اجزاي جمله با پرسش داشته باشد چرا كه در حضور تعداد زيادي پاسخ كانديد، آن كه داراي بالاترين مرتبه تطابق است، به عنوان بهترين پاسخ استخراج خواهد شد. مرتبه تطابق نشاندهنده ميزان اعتماد سامانه به پاسخ خواهد بود. پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
افزودن تمام الگوهاي پاسخ به الگوي مورد جستجو براي هر پرسش • افزودن الگوي فاعل تبديل شده به مفعول در پاسخ، به تمام الگوها غير از الگوي مجهول پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
الگوهای پاسخ پرسش why • الگوهاي پاسخ داراي نشانه • الگوهاي پاسخ بدون نشانه در اغلب موارد، پاسخ در اطراف جمله تطابق يافته است. بنابراين در صورتي كه يك يا چند جمله قبل يا بعد به عنوان پاسخ استخراج شود با احتمال حدود 70 درصد، پاسخ در ميان جملات خواهد بود. در اينگونه موارد ميتوان براي افزايش دقت تمام پاراگراف حاوي جمله تطابق يافته را به عنوان پاسخ استخراج كرد. Question: Why was she listening? Who was always eager to know what was happening in everybody else `s house, was listening Candidate Sentence: She was listening. Final Answer: she was always eager to know what was happening in everybody else `s house. پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
الگوهاي پاسخ پرسشهاي Yes-No همان الگوهاي قبل را داريم تنها با اين تفاوت كه عبارت زير از تمام الگوهاي پرسش حذف خواهد شد YES پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
دستهبندي پرسشهايي كه سامانه E-SBUQA قادر به يافتن پاسخ براي آنها نيست. پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
معيارهاي ارزيابي داده هاي آموزش و آزمايش: (Hill 1988; Hill 2000) معيارهای خاص سامانههای پرسش و پاسخ : • FHS (موفقيت در اولين تلاش): اگر اولين پاسخ برگردانده شده توسط سامانه، به درستي به پرسش پاسخ دهد، FHS برابر 1 و در غير اين صورت برابر 0 ميشود. • FARR(رتبهبندي متقابل اولين پاسخ): اين معيار، رتبهبندي بهترين پاسخ را در بين پاسخهاي برگردانده شده توسط سامانه مشخص ميكند. مثلاً اگر سومين پاسخ برگردانده شده توسط سامانه، بالاترين رتبهبندي را در پاسخهاي صحيح داشته باشد، FARR برابر 1/3 ميشود. اگر هيچكدام از پاسخها درست نباشند، FARR برابر 0 ميشود. • FARWR(رتبهبندي كلمهاي متقابل اولين پاسخ): اين معيار، برابر تعداد كلماتي است كه كاربر پيش از رسيدن به جواب صحيح بايد آنها را بخواند. مثلاً اگر پاسخ يك پرسش "Florida Capital Tallahasse" باشد، و پاسخ صحيح از سومين كلمه آغاز شود، FARWR برابر 1/3 ميشود. • TRR(رتبهبندي متقابل كل): معيار FARR كه در بالا به آن اشاره شد، تنها بهترين پاسخ را در نظر ميگيرد. اگر بيش از يك پاسخ صحيح داشته باشيم، TRR همه پاسخهاي صحيح را در نظر ميگيرد و يك وزن به هر يك نسبت ميدهد و در نهايت، مجموع اين وزن ها را محاسبه ميكند. مثلاً اگر پاسخ دوم و چهارم صحيح باشند، TRR برابر ½ +1/4 =3/4ميشود. مقادير ممکن برای معيارهای FHS، FARR، FARWR، و TRWR در بازه 0 و 1 قرار دارند و مقدار ايده آل در يک سامانه پرسش و پاسخ بدون خطا برابر 1 است. مقادير ممکن برای معيار TRR از 0 آغاز میشود و کران بالايی ندارد، هرچه مقدار اين معيار بزرگتر باشد بدين معناست که سامانه تعداد پاسخهای صحيح بيشتری را به کاربر بازگردانده است. پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
ارزيابی دو سامانه SBUQA و E-SBUQA براي الگوهاي اصلاح و اضافه شده دادههاي آموزش: 100 پرسش نوع When,Where,Who,What و Which از (Hill 2000) دادههاي آزمايشي: تعداد 60 پرسش به صورت تصادفي از (Hill 1988; Hill 2000) پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
ارزيابی سامانه E-SBUQA براي پرسش Why دادههاي آموزش: 100 پرسش (داراي پاسخ موجود در متن به صورت عبارت، يك يا چند جمله) از (Hill 2000) دادههاي آزمايش: تعداد 60 پرسش (Hill 1988) • ارزيابی سامانه E-SBUQA براي پرسش Yes-No دادههاي آموزش: 30پرسش از (Hill 1988) دادههاي آزمايش: تعداد 32پرسش (Hill 2000) پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
نتيجهگيري • ايجاد سامانه E-SBUQA به عنوان بهبود و اصلاح بر سامانه -SBUQA • استفاده از Wordnet و بازنمايي ساخت واژهاي- نقشي در سامانه SBUQA • تفسير دقيق پرسشهاي پيچيده با استفاده از استخراج روابط ميان كلمات توسط گرامر واژهاي- نقشي • استفاده از WordNet براي گسترش معنايي پرسش و پاسخهاي كانديد • استفاده از دو كتاب داستان انگليسي مشتمل بر تعداد زيادي داستان كوتاه با متن ساده و روان و پرسش در انتهاي هر داستان براي آموزش و آزمايش سامانه E-SBUQA • اصلاح الگوي IIA و IIIA در سامانه SBUQA • افزودن تعدادي الگو به سامانه SBUQA با هدف شناسايي پاسخ در صورت تغيير زمان، نوع فعل و جابجايي حالت معنايي فاعل با مفعول • تعريف الگوهاي جديد براي شناسايي پاسخ پرسش Why در دو دسته با نشانه و بدون نشانه • تعريف الگوهاي جديد براي شناسايي پاسخ پرسش Yes-No با ذكر علامتهاي موجود براي پاسخ “No” • پاسخگويي سامانه به پرسشهاي چرايي (Why) با 60 پرسش آزمايشي، داراي دقت 75درصد و ميزان فراخواني 86 درصد • پاسخگويي سامانه به پرسشهاي چرايي (Why) با 32 پرسش آزمايشي، داراي دقت 93 درصد و ميزان فراخواني 78درصد • پاسخگويي سامانه SBUQA براي 60 پرسش آزمايشي، با دقت و فراخواني 70درصد و پاسخگويي سامانه E-SBUQA با دقت 84 درصد و فراخواني 80 درصد و كسب مقادير بالاتر براي معيارهاي FHS ، FARR، FARWR و TRR در سامانه E-SBUQA نسبت به SBUQA پس از اصلاح و بهبود در بخش پرسشهاي Where,When,Which,Who و What • كسب مقادير خوب(بالاتر از ميانگين ) براي معيارهاي FHS ، FARR و FARWR در پرسشهاي Why و Yes-No • كسب مقدار پايين TRR به علت كوتاه بودن داستانها و تطابق نداشتن بيش از دو جمله با پرسش پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
كارهاي آتي • توسعه سامانه براي پرسشهای How,List, Whom, Whoseو انواع ديگر پرسشها • استفاده از بخش موضوعي گرامر واژهاي- نقشي كه صورت معناييتري از جمله را نمايش ميدهد. • استفاده از تجزيه گر واژهاي- نقشي ايجاد شده توسط آقاي فاروقي در دانشكده ادبيات فردوسي مشهد جهت سهولت ورود اطلاعات بجاي استفاده از تجزيهگر برخط NCLT و امكان تصحيح اشكالات • وزندهی به اجزای الگوها جهت بالا بردن ميزان دقت استخراج پاسخ • استفاده از روابط غير مستقيم علاوه بر روابط مستقيم در WordNet براي يافتن برخي پاسخهاي نهفته • تحليل كلمات منفي، غير قطعي و پيش زمينه نامطمئن براي افزايش دقت پاسخگويي • انجام اين الگوريتم براي زبان فارسي در صورت امكان استفاده از هستانشناسي و سامانه تجزيه گر گرامر واژهاي- نقشي براي فارسي پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
مراجع Software 1-Wordnet 1.7.1 software 2- Oracle Jdeveloper 10J 3- Jwnl 1.4 Links http://lfg-demo.computing.dcu.ie/lfgparser.html http://www-appn.comp.nus.edu.sg/~rpnlpir/cgi-bin/JavaRAP/JavaRAPdemo.cgi پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
مراجع • دبيرمقدم, م., Ed. (1383) زبانشناسی نظری، پيدايش و تکوين دستور زايشی. تهران, سازمان مطالعه و تدوين کتب علوم انساني دانشگاهها. • درودي, ا. (1384). پرسش و پاسخ با استدلال مقبول انساني. گروه كامپيوتر،دانشکده مهندسي برق و کامپيوتر. تهران دانشگاه تهران. • فاروقيهندوالان, ج. ا. (1386). ارائه الگويي بافت محور براي ترجمه ماشيني پارهاي از جملات ساده انگليسي به فارسي بر پايه دستور واژهاي- نقشي. گروه زبانشناسي دانشكده ادبيات و علوم انساني دكتر علي شريعتي. مشهد, فردوسي. دكترا. • يارمحمدي, م. ع. (1386). استخراج پاسخ نهايی از مستندات بازيابی شده در يک سيستم پرسش و پاسخ. تهران, دانشگاه شهيد بهشتي • Diekema, A.R, O. Y., E.D. Liddy (2004). Evaluation of Restricted Domain Question-Answering Systems. In Proceedings of EACL Workshop on Question Answering in Restricted Domains, Barcelona, Spain. • Bos, J. (2007). "The “La Sapienza” Question Answering system at TREC-2006." • Bouma, G., I. Fahmi, et al. (2007). "Linguistic knowledge and question answering." Traitement Automatique des Langues. • Clark, P., V. Chaudhri, et al. (2003). "Enabling domain experts to convey questions to a machine: a modified, template-based approach." Proceedings of the 2nd international conference on Knowledge • Cui, H., R. Sun, et al. (2005). "Question Answering Passage Retrieval Using Dependency Relations." on Research and development in information retrieval. • Dang, H. T., D. Kelly, et al. (2008). Overview of the TREC 2007 Question Answering Track. Proc. of TREC. • Darrudi, E., F. Oroumchian, et al. (2005). "TeLQAS: a Realization of Humanlike Inferences for Knowledge-based Question Answering Systems " Journal of Computational Linguistics. • Fellbaum, C. (1998). Book Reviews WordNet: An Electronic Lexical Database. پاسخگويي به سؤالات كاربر با يك رويكرد معنايي
Friedland.et.al (2004). Project Halo: Towards a Digital Aristotle. AI Magazine. 25: 29-47. • Fukumoto, J., T. Kato, et al. (2005). "An Overview of the 4th Question Answering Challenge (QAC-4) at NTCIR Workshop 6." • Hill, L. A. (1988). Introductory Steps to Understanding. Bunkyo-Ku, Tokyo Oxford University Press . • Hill, L. A. (2000). Elementary stories reproduction. LONDON, Oxford university Press. • Katz, B. (1997). Annotating the World Wide Web using natural language. Proceedings of the 5th RIAO Conference on Computer Assisted • Mahsa A. Yarmohammadi, M. Shamsfard., Mahshid A. Yarmohammadi, Masoud Rouhizadeh (2008). "Using WordNet in Extracting the Final Answer from Retrieved Documents in a Question Answering System." The Fourth Global WordNet Conference: 520-531. • Puscasuy, G., A. Ifteney, et al. (2007). "Developing a Question Answering System for the Romanian-English Track at CLEF 2006." • Surdeanu, M., M. Ciaramita, et al. (2008). "Learning to Rank Answers on Large Online QA Collections." • Vargas, M., Vera, et al. (2003). "AQUA: An Ontology-Driven Question Answering System." • Voorhees, E. (2003). "Overview of the TREC 2002 Question Answering Track." NIST SPECIAL PUBLICATION SP. • Zheng, Z. (2002). AnswerBus Question Answering System. Proceedings of the second international conference on Human پاسخگويي به سؤالات كاربر با يك رويكرد معنايي