230 likes | 378 Views
جستجو در اينترنت با استفاده از زبان طبيعي فارسي. دكتر محسن كاهاني گروه مهندسي كامپيوتر دانشگاه فردوسي مشهد kahani@um.ac.ir http://www.um.ac.ir/~kahani. فهرست مطالب. مقدمه پردازش زبان طبيعي ويژگيهاي زبان فارسي ساختار سيستم پياده سازي سيستم نتايج. مقدمه. گسترش كاربرد هاي اينترنت
E N D
جستجو در اينترنتبا استفاده از زبان طبيعي فارسي دكترمحسن كاهاني گروه مهندسي كامپيوتر دانشگاه فردوسي مشهد kahani@um.ac.ir http://www.um.ac.ir/~kahani
فهرست مطالب • مقدمه • پردازش زبان طبيعي • ويژگيهاي زبان فارسي • ساختار سيستم • پياده سازي سيستم • نتايج
مقدمه • گسترش كاربرد هاي اينترنت • افزايش سايت هاي با مطالب عمومي (تجارتي، اطلاع رساني، سرگرمي و وبلاگ) • افزايش كاربران غير آكادميك • عدم آشنايي كاربران عادي با گزاره هاي جبري • مشكل جستجو در اينترنت
راه حل • پذيرش جملات طبيعي (محاوره اي) توسط موتورهاي جستجو • فقط پشتيباني (محدود) از زبان انگليسي
انگيزه پروژه • افزايش سايتهاي بزبان فارسي • افزايش كاربران فارسي زبان • مشكل جستجو در اينترنت براي كاربران عادي
پردازش زبان طبيعي (NLP) • يكي از مقوله هاي مطرح در «هوش مصنوعي» • روند استفاده از كامپيوترها و نرم افزارها بسمت استفاده راحت تر كاربر(User Friendly) • پردازش گفتار • پردازش نوشتار
مفاهيم و علوم مطرح در NLP • Phonological : تشيخص اصوات در لغات • Morphological: علم لغت و « واژك ها » كه كلمات را تجزبه كند . • Syntactic : شناخت نحوي و گرامري • Semantic : معناي لغات و مفهوم عبارات تركيبي • Pragmatic : سطح بالاتري از علم كه دربارة معناي متفاوت يك جمله در متون مختلف قضاوت مي كند . • World : اطلاعات كلي كه شخص در برقراري ارتباط مي داند . شامل شناخت اهداف و عقايد ديگران نيز مي شود .
ويژگيهاي زبان فارسي • حروف در زبان فارسي به يكديگر چسبيده مي شوند • اشكال متفاوتي بسته به محل كلمه • چداسازي كلمات با فاصله • درباره ترتيب اجزاء جمله قيد و محدوديت خاصي وجود ندارد.(free order) • وجود استثنائات زياد (مثلا امكان آوردن فعل مفرد براي فاعل جمع و بالعكس) • عدم وجود حروف بزرگ و كوچك (case) • عدم وجود نشانگر بين عبارات اسمي
ساختار سيستم عبارت عبارت آناليز كننده نحوي (پارسر) درخت پيش پردازش منظم ورودي پارس شده مجموعه لغات فيلترها قواعد ( lexicon ) خاص درخت كامل عبارت جبري تبديل كننده آناليز كننده عبارت جبري محتوايي
فيلتر 1 شروع هدف : فعل هر جمله كنار اجزاي خود جمله و آخر جمله باشد مشخص كردنTockon هاي خالص اعمال قاعده 1 تنظيم فعل شمردن افعال جمله وجود فعل پيرو پيش از پايه اعمالقاعده 2 قاعده 2:جملات پيروي توصيفي كه در دل جمله پايه آمده باشند را از دل جملات پايه خارج مي كند. قاعده 1:تك جمله را به تك جمله اي كه فعل اش آخرش است تبديل مي كند. تصحيح حروف پايان
فيلتر 2 هدف: مفعول در جمله موجود باشد و نسبت به تركيبات اضافي تقدم داشته باشد • تنظيم ترتيب اجزاي جمله (بعلت free order بودن زبان فارسي)
فيلتر 3 هدف: تطابق و تغييرواژك هاي ورودي براساس لغاتlexicon • تنظيم جداكننده ها (white spaces) در ميان لغات يك جمله • تنظيم جداكننده هادر كلمات مركب
فيلتر 4 هدف : حذف token هايي كه از ديد پروژه (با توجه به lexicon) غيرلازم اند • حذف حروف پشت سرهم (به لحاظ عملكرد خاص فيلتر 1 توليد شده اند) • اسامي خاصي از lexicon كه خصوصيت مشخصي داشته باشند ، مثلا (null) (قيد)N : كلمه اي كه نوع اش N باشد و خاصيت اش قيد باشد و عملگرش null و تهي باشد حذف مي شود.
گرامر - ترمينالها Pss : حروف ربط مجاز بين دوجمله غيرپايه ، پيرو Pst : حرف ربط بعد جمله پايه (كه ) Ptt :حرف ربط بين دو جمله پيرو (و...) St1 : نوع جستجو (كتاب ، مقاله ، site ....) si: پيش عبارت اضافي مشخص كننده موضوع جستجو (درمورد و ....) pp: حرف ربط يا اضافه Vp: فعل جمله پايه Vt: فعل جمله پيرو N: اسم (اسم خاص يا يك ورودي در فرهنگ لغات ياخارج آن)
گرامر – غير ترمينالها S: جمله يا جملات SP: جمله پايه ST: جمله پيرو Start : شروع جمله پايه SR: عبارت شامل موضوع درخواست MNP: عبارت اسمي شامل موضوع جستجو SRS: چندين SR SNP: موضوعات خالص Search با حروف ربط بين شان . NP: عبارت اسمي TSRS: تركيبات جستجو دار قبل از فعل در جمله پيرو
قوانين گرامر SS Pss S SSP Pst ST | SP STST Ptt ST SPSRS Vp SRSSR “va” SRS | SR SR Start MNP1 | Start MNP2 Start St | St “ra” MNP1 si + SNP
قوانين گرامر- ادامه MNP2 SNP “ra” SNP NP pp SNP | NP ST TSRS+ Vt | TSRS’+Vt TSRS MNP1 “va” TSRS | MNP1 TSRS’ MNP2 “va” TSRS | MNP2 NPN+NP | N St St1 St | St1
مقالاتي در مورد پردازش زبان طبيعي مي خواهم پردازش زبان طبيعي
اطلاعاتي درباره NLP بياب كه مربوط به زبان فارسي باشد NLP زبان فارسي
نتيجه گيري و كارهاي آتي • ايجاد سيستم اوليه • كارهاي آتي • - ايجاد فيلتر قوي براي تبديل بهتر جملات به جملاتاستاندارد • تقويت گرامر براي پوشش بهتر • تكميل فرهنگ لغات
سئوال؟ kahani@um.ac.ir