500 likes | 650 Views
مقدمه ا ي بر پردازش زبان طب ي ع ي. دانشگاه صنعتي امير کبير دانشکده مهندسي کامپيوتر و فناوري اطلاعات آزمايشگاه سيستم هاي هوشمند http://ce.aut.ac.ir/islab. ارائه دهنده: دکتر احمد عبدالله زاده تنظيم کننده: پرهام مرادي. Natural Language Processing. Natural Language Processing. پائيز 85.
E N D
مقدمه اي بر پردازش زبان طبيعي دانشگاه صنعتي امير کبير دانشکده مهندسي کامپيوتر و فناوري اطلاعات آزمايشگاه سيستمهاي هوشمند http://ce.aut.ac.ir/islab ارائه دهنده: دکتر احمد عبدالله زاده تنظيم کننده: پرهام مرادي Natural Language Processing Natural Language Processing پائيز 85
نکات مورد بحث • هوش مصنوعي • پردازش زبان طبيعي • تاريخچه NLP • کاربرد هايNLP Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
هوش مصنوعي • نحوه پردازش فکر را در ماشين نشان مي دهد Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
اهداف AI • ساخت ماشين هاي هوشمندتر (هدف اوليه) • ساخت ماشين هاي مفيدتر (هدف کاربردي) Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
مفاهيم AI و تعاريف • AI شامل تعاريف زيادي است • AI علم مطالعه فرآيند تفکر انسان • AI بازنمايي فرآيند تفکر در ماشين Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
هوش مصنوعي • انجام عملي در ماشين، که اگر آن عمل توسط انسان انجام ميگرفت نياز به تفکر و هوشمندي داشت • مطالعه چگونگي انجام اعمالي توسط کامپيوتر که انسان همان عمل را بهتر و راحتتر انجام ميدهد (Rich and Knight 1991) • تئوري مربوط به نحوه انجام تفکر در انسان (Mark Fox) Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
اهداف AI • ايجاد ماشينهاي باهوشتر (هدف اوليه) • فهم اينکه هوش چيست • ايجاد ماشينهاي مفيدتر (Winston and Prendergast [1984]) Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
علائم هوشمندي • يادگيرييا ادراک از طريق تجربه • رفع ابهام • استفاده از استدلال براي حل مسائل • فهم و استنباط تشخيص ارتباط عناصر مختلف • تفکر و استنتاج • بهکارگيري دانش جهت عمل بر روي محيط • فهم و نتيجه گيري عاقلانه Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
AI از يک سري علائم در حل مساله استفاده ميکند • علائم و ساختار آنها : بازنمايي دانش • روشهاي غير الگوريتمي براي حل مسائل در سيستمهاي AI مورد استفاده قرار ميگيرد Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
محاسبات هوشمندانه • بر پايه بازنمايي نشانه و بکارگيري آنهاست • يک نشانه، يک حرف، کلمه و يا عدد براي بازنمايي اشياء ، فرآيندها و ارتباطات آنهاست • اشياء ، شامل افراد، مفاهيم، وقايع، ايدهها و يا حقايق • ايجاد دانش برپايه نشانهها • AI استنتاج از دانش را با جستجو و تطابق الگو انجام ميدهد Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
محاسبات هوشمندانه • بر پايه بازنمايي نشانه و بکارگيري آنهاست • يک نشانه، يک حرف، کلمه و يا عدد براي بازنمايي اشياء ، فرآيندها و ارتباطات آنهاست • اشياء ، شامل افراد، مفاهيم، وقايع، ايدهها و يا حقايق • ايجاد دانش برپايه نشانهها Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
natural intelligence A B interrogator artificial intelligence تست تورينگ • يککامپيوترويکانسانداخلاتاقيقراردارندودربيروناتاقيکنفرسوالميپرسدوازداخلاتاقجوابيميشنودومتوجهنشودکهکامپيوترجوابدادهياانسان Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
زمينه هاي هوش مصنوعي • سيستم هاي خبره • پردازش زبان طبيعي • پردازش گفتار • رباتيک • بينايي ماشين • محاسبات تکاملي • الگوريتمهاي ژنتيک • منطق فازي • خلاصه سازي اخبار • ترجمه ماشيني Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
هوش مصنوعي تکنيک ابزار کاربردها Learning Prolog پردازش زبان طبيعي Knowledge Representation Lisp پردازش تصوير سيستمهاي خبره Reasoning جايگاه پردازش زبان طبيعي در هوش مصنوعي Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
زبان طبيعي • زبان طبيعي زباني است که در تعاملات اجتماعي روز مره ما با استفاده از آن مينويسيم و صحبت ميکنيم • زبان هاي طبيعي مختلف و زيادي وجود دارند • ممکن است که فرم گفتاري و نوشتاري زبان ها متفات باشند و همچنين از هم مستقل باشند. • سيستم هايي از واژگان قوائد و معاني که مي توانند ثبت ومشاهده شوند مجود دارند • NLP اين ادعا را دارد که با خودکار کردن پردازش زبان سيستم هاي مفيدي بر پايه اين توصيفات بوجود آورد. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
طبقه بندي زبانهاي جهان Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
طبقه بندي زبانهاي جهان Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
طبقه بندي زبانهاي جهان Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
طبقه بندي زبانهاي جهان Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
پردازش زبان طبيعي • NLP در ارتباط با توسعه مدل هاي محاسباتي، از ديدگاه پردازش زبان مي باشد. - خواندن و تفسير يک کتاب درسي • نوشتن • محاوره • ترجمه سند. -جستجوي اطلاعات مورد نياز • اين مدل ها براي ايجاد برنامه هاي کامپيوتري به منظور انجام عمليات پردازش زبان و براي فهم بهتر مورد استفاده قرار مي گيرند Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
پردازش زبان طبيعي • ساخت يک مدل محاسباتي از زبان براي فهم زبان طبيعي • ورودي: زبان طبيعي • خروجي : زبان طبيعي Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
ساير عناوين عناوين متداول : • پردازش خودکار زبان • زبان شناسي محاسباتي • فهم زبان طبيعي Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
زبان شناسي محاسباتي • کاربرد کامپيوتر ها براي مطالعه علمي زبان انسان • مطالعه در زمينه اينکه انسان ها چطور زبان را توليد کرده و مي فهمند • در زمينه زبان شناسي توليدي و قبل ازآن شامل مطالعه زبان رسمي و زبان هاي برنامه نويسي مي شد. • کامپيوتر به عنوان يک ابزار در مدل هايي که قابليت توسعه و ارزيابي دارند، استفاده مي شد. به عنوان مثال پياده سازي تئوري ”يادگيري زبان توسط نوزاد“ Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
تاريخچه NLP : 1940 - 1950 • ارائه نظريه زبانها توسط نوام چامسکي - Kleene و Backus • طبقه بندي گرامرها • ارائه جمله با گرامر • تئوري احتمالات • فهم جملات با توجه به ابهامات • اولين برنامه کامل تشخيص NLPيک سيستم جستجوي لغت در فرهنگ لغت بودکه در کالج Birkbeck در لندن در سال 1948 ايجاد شد. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
تاريخچه NLP : 1950 - 1960 • کنفرانس Dartmouth : تولد AI (1956) • جستجوي Heuristic (Newell – Simon 1956) • LISP (McCarthy 1960) • ترجمه ماشيني • در سال 1957 چاپ کتاب Verbal Behavior توسط اسکينر • يادگيري بر پايه رفتار • نظريه رفتار گرايي Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
تاريخچه NLP : 1960 - 1970 NLP از 1957 تا 1970: مبتني بر گرامر: استفاده از فرمال گرامر به عنوان پايه پردازش زبان و سيستمهاييادگيري(Chomskey,Harris,Kaplan,Peters) مبتني بر منطق: استفاده از منطق و برنامه نويسي منطق به منظور مشخص کردن syntax و استنتاج معنايي. (Minskey,Schunk,Winograd,Colmerauer,Kay) فهم زبان در حقيقت نوعي استنتاج گرامري بود. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
تاريخچه NLP : 1960 - 1970 مدلهاي آماري: استفاده از روشهاي احتمالاتي براي بازشناسي گفتار و OCR (Fodor,Bever,Garrett,Bresnan,Weinberg) اولين مدل فيزيکي-زباني قابل تست براييادگيري زبان و فهم آن پيشنهاد شد. • BASEBALL (Green 1963) • STUDENT (Bobrow 1968) • ELIZA (Weizenbaum 1966) Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
تاريخچه NLP : 1970 - 1980 • استفاده از شبکه هايATN • Case Grammar: حل يکي از مسائل از ترجمه ماشيني نمايش معنايي: -schank و همکارانش تئوري وابستگي معنايي،که تئوريي دربيان زبان درواژه هاي اوليه معنايي است راارائه دادند. - ارائه نظريه شبکه هاي مفهومي که در فرم هاي مختلف براي ارائه دانش در بسياري از سيستم ها استفاده مي شد. - WILIIAM WOODSاز نظريه مفاهيم رويه اي براي عمل کردن به عنوان يک ارائه مياني بين يک سيستم پردازش زبان و يک سيستم پايگاه داده استفاده مي کرد. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
تاريخچه NLP : 1970 - 1980 • SHRDIU • LUNAR: يک سيستم واسط پايگاه داده که از مفاهيم رويه اي و ATNاستفاده مي کرد. • LIFER/LADDER : يکي از موثر ترين سيستم هايNLP که به عنوان يک واسط زبان طبيعي براييک پايگاه داده از اطلاعات در باره کشتي هاي ارتش آمريکا طراحي شده بود. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
سطوح مختلف پردازش زبان (دانشهاي مورد نياز) • فونوتيک (Phonetic & Phonology ) • مورفولوژي (Morphology) • در مورد لغات بحث ميکند • Syntax • رابطه ساختاري بين لغات • Semantic • معناي لغات • Pragmatic • نحوه استفاده از جمله • Discourse • رابطه بين معناي لغات در بعد مکان و زمان • در رابطه با جمله و هدف جمله در بعد مکان و زمان • Common sense Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
سطوح مختلف پردازش زبان (دانشهاي مورد نياز) Meaning Representation Speech Recognition/ Segmentation Lexical Choice Morphological Analysis Syntactic Realization Syntactic Analysis Morphological Realization Semantic Interpretation Discourse Processing Generation Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
معماري کلي سيستمهاي پردازش زبان Parsing Word Syntax Structure Tokenize جمله Conceptual Interpret Semantic Analysis Response Application Reasoning Planning Word Syntax جمله Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
تاريخچه NLP : 1980 - 1993 • NLP از 1980 تا 1990 : - گرامر رسمي(Grammar Formalisms) • NLP از 1990 تا حال: - چندزباني وچندبعدي (Multilinguality and Multimodality ) Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
کاربردهاي NLP • کاربرد ها مي توانند به راه هاي مختلفي دسته بندي شوند.به عنوان مثال: وسيله/بعد،عمق تحليلها ،درجه تعاملات. - کاربرد هاي بر پايه متن. - فهم زبان طبيعي. - سيستم هاي مکالمه. - چند بعدي. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
کاربرد هاي بر پايه متن • پردازش متون نوشته شده مثل،کتابها،اخبار،مقالات،گزارش ها - يافتن سند مناسب در عنوان هاي مشخص از يک پايگاه داده متني. - استخراج اطلاعات از پيام ها مقالات،صفحات وب و ... - ترجمه سند از يک زبان به زبان ديگر. • تلخيص متن. * نکته: همه اين کاربرد ها نيازمند NLP نيستند. تکنيک هايي که بر پايه کلمات کليدي هستند مي توانند براي شناخت نواحي موضوعي خاص موفق باشند. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
زبان طبيعيفهم • نيازمند يک سطح عميق از آناليز هستند: ”براي من پيدا کن همه مقالات در رابطه تصاد فات ماشينشامل بيش از دو ماشين در Malta در نيمه اول 2001“ • اينجا سيستم بايد اطلاعات کافي را براي مشخص کردن اينکه آيا مقاله ها ملاک تعريف شده اي به وسيله پرسش معرفي مي کنند، استخراج کند. • يک تشخيص قاطع از يک سيستم ،فهم اين است که آن، ارائه هاي اطلاعاتي که مي توانند براي واسط هاي بعدي مورد استفاده قرار بگيرند مي تواند محاسبه کند. - يک سوال قاطع براييک سيستم NLP اين است که چطور هوشمندي زيادي براي بدست آوردن هدف سيستملازم است . Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
کاربرد هاي بر پايه مکالمه ارتباط بين ماشين وانسان را شامل مي شود • سيستم پردازش پايگاه داده NL • سرويس هاي مشتري خودکار مثل سرويس هاي بانکي • سيستم حل مسئله NL عمومي • برخي از تفاوت هاي سيستم هاي متني و مکالمه اي: • زبان هاي استفاده شده زياد رسمي نيستند • استفاده از شرح تصديق هاي زير مکالمه اي Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
کاربرد هاي چند بعدي • شامل دو يا بيش از دو بعد ارتباطي است: • متن • گفتار • اشاره • تصوير • توليد سند هاي چند بعدي • سيستم هاي ترجمه گفتاري • سيستم هاي مکالمه گفتاري گفتار متن متن گفتار Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
شناسايي گفتار • زبان گفتاري شناسايي مي شود و مثلا در سيستمهاي ديکته ، به متن ،يا در سيستم هاي کنترل روبات ، به فرامين، يا به بازنمود دروني ديگري ، تبديل مي شود. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
ترکيب گفتار • اداها (Utterance) در زبان گفتاري از متن (سيستم هاي متن – به – گفتار ) يا از بازنمودهاي دروني لغات يا جملات ( سيستم هاي مفهوم – به – گفتار)توليد مي شوند. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
مقوله بندي متن • اين تکنولوژي متون را به مقولات اختصاص مي دهد. متون ممکن است به بيش از يک مقوله متعلق باشند، مقوله ها ممکن است حاوي مقولات ديگري باشند.تصفيه سازي حالت خاصي از مقوله بندي داراي تنها دو مقوله است. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
خلاصه سازي متون • مربوط ترين بخش هاي يک متن به صورت خلاصه استخراج مي شوند . اين کار به طول و درازاي مورد نياز خلاصه ها بستگي دارد. در صورتي که لازم باشد که خلاصه به يک پرسش معين مختص باشد ، تلخيص سخت تر است. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
نمايه سازي متن • به عنوان پيش شرطي براي بازيابي سند ، متون در يک پايگاه داده اي نمايه سازي شده ذخيره مي شوند. معمولا متن براي همۀ شکلهاي کلمه يا – بعد از شرح و تفسير براي همۀ کلمات نمايه مي شود. گاهي اوقات نمايه سازي با مقوله بندي و تلخيص ترکيب مي شود . Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
بازيابي متن • متون از يک پايگاه داده اي که بيشتر با يک پرسش يا سند معين مطابقت مي کند ، بازيابي مي شوند . اسناد مورد نظر با توجه به مناسبت مورد انتظارشان مرتب مي شوند . نمايه سازي، مقوله بندي، تلخيص و بازيابي اغلب تحت اصطلاح بازيابي اطلاعات قرار مي گيرند. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
استخراج اطلاعات • تکه هاي اطلاعاتي مربوط ومناسب اطلاعات کشف و براي استخراج نشان دار مي شوند: قطعات استخراج شده مي توانند به شکل هاي ذيل باشند: موضوع ، هويت هاي با نام از قبيل اسامي شرکت ، مکان يا شخص ، رابطه هاي ساده از قبيل قيمتها ، مقاصد، کارکردها و غيرو يا رابطه هاي پيچيده ازقبيل شرح دادن تصادفات ، ادغام شرکتها يا مسابقات فوتبال . Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
ترکيب داده ها و استخراج داده هاي متن • قطعات استخراج شده اطلاعات از چندين منبع در يک پايگاه داده اي ترکيب مي شوند. ممکن است مناسباتي که از قبل تشخيص داده نشده اند ، کشف شوند. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
پاسخ به پرسش • پرسشهاي زبان طبيعي براي دسترسي به اطلاعات در پايگاه داده اي مورد استفاده قرار مي گيرند. پايگاه داده اي ممکن است مبناي داده هاي ساختاري شده يا مخزني از ستون ديجيتال باشد که در آن بخش هاي معين به عنوان پاسخ هاي بالقوه نشان دار شده اند. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
ايجاد گزارش • گزارش به زبان طبيعي ايجاد مي شود که محتواي اساسي پايگاه داده اي يا تغييرات آن را شرح مي دهد. گزارش مي تواند حاوي اعداد جمع شده ، حداکثر، حداقل و بنيادي ترين تغييرات باشد. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh
تکنولوژي هاي ترجمه • تکنولوژي هايي که متون را ترجمه مي کنند يا به مترجمان کمک مي کنند . ترجمه خودکاريا ترجمه ماشيني خوانده مي شود . حافظه هاي ترجمه از مقادير بزرگي متن همراه با ترجمه هاي موجود براي دنبال کردن موثر ترجمه هاي احتمالي کلمات ، عبارات و جملات استفاده مي کنند. Amirkabir University of Technology, Computer Engineering Faculty , Intelligent Systems Laboratory,NLP Course , Ahmad Abdollahzadeh