مقدمه ا ي بر پردازش زبان طب ي ع ي

مقدمه اي بر پردازش زبان طبيعي

نکات مورد بحث • هوش مصنوعي • پردازش زبان طبيعي • تاريخچه NLP • کاربرد هايNLP

هوش مصنوعي • نحوه پردازش فکر را در ماشين نشان مي دهد

اهداف AI • ساخت ماشين هاي هوشمندتر (هدف اوليه) • ساخت ماشين هاي مفيدتر (هدف کاربردي)

علائم هوشمندي • يادگيرييا از طريق تجربه • رفع ابهام • استفاده از استدلال براي حل مسائل • فهم و استنباط تشخيص ارتباط عناصر مختلف • ...

natural intelligence A B interrogator artificial intelligence تست تورينگ • فرضميکنيمدريکاتاقيکانسانويکسيستمقراردارند. سوالمشابهيازهردوپرسيدهميشود. اگرازرويجوابهانتوانيمتشخيصدهيمکهکداميکانسانوکداميکسيستماستدراينحالتسيستمهوشمندانهعملکردهاست. • دليلينداردکهجوابهامشابهباشند. • ممکناستجوابهااشتباههمباشد.

زمينه هاي هوش مصنوعي • سيستم هاي خبره • پردازش زبان طبيعي • پردازش گفتار • رباتيک • بينايي ماشين • محاسبات تکاملي • و ...

زبان طبيعي • زبان طبيعي زباني است که در تعاملات اجتماعي روز مره ما با استفاده از آن مي نويسيم و صحبت مي کنيم • زبان هاي طبيعي مختلف و زيادي وجود دارند • ممکن است که فرم گفتاري و نوشتاري زبان ها متفات باشند و همچنين از هم مستقل باشند. • سيستم هايي از واژگان قوائد و معاني که مي توانند ثبت ومشاهده شوند مجود دارند • NLP اين ادعا را دارد که با خودکار کردن پردازش زبان سيستم هاي مفيدي بر پايه اين توصيفات بوجود آورد.

پردازش زبان طبيعي • NLP در ارتباط با توسعه مدل هاي محاسباتي، از ديدگاه پردازش زبان مي باشد. - خواندن و تفسير يک کتاب درسي • نوشتن • محاوره • ترجمه سند. -جستجوي اطلاعات مورد نياز • اين مدل ها براي ايجاد برنامه هاي کامپيوتري به منظور انجام عمليات پردازش زبان و براي فهم بهتر مورد استفاده قرار مي گيرند

پردازش زبان طبيعي • هدف از پردازش زبان طبيعي اين است که کامپيوترها از زبان طبيعي به عنوان ورودي و خروجي استفاده نمايند.

ساير عناوين عناوين متداول : • پردازش خودکار زبان • زبان شناسي محاسباتي • فهم زبان طبيعي

زبان شناسي محاسباتي • کاربرد کامپيوتر ها براي مطالعه علمي زبان انسان • مطالعه در زمينه اينکه انسان ها چطور زبان را توليد کرده و مي فهمند • در زمينه زبان شناسي توليدي و قبل ازآن شامل مطالعه زبان رسمي و زبان هاي برنامه نويسي مي شد. • کامپيوتر به عنوان يک ابزار در مدل هايي که قابليت توسعه و ارزيابي دارند، استفاده مي شد. به عنوان مثال پياده سازي تئوري ”يادگيري زبان توسط نوزاد“

از 1957 تا 1970: NLPتاريخچه • اولين برنامه کامل تشخيص NLPيک سيستم جستجوي لغت در فرهنگ لغت بودکه در کالج Birkbeck در لندن در سال 1948 ايجاد شد. NLP از 1957 تا 1970: مبتني بر گرامر: استفاده از فرمال گرامر به عنوان پايه پردازش زبان و سيستمهاييادگيري(Chomskey,Harris,Kaplan,Peters) مبتني بر منطق: استفاده از منطق و برنامه نويسي منطق به منظور مشخص کردن syntax و استنتاج معنايي. (Minskey,Schunk,Winograd,Colmerauer,Kay) فهم زبان در حقيقت نوعي استنتاج گرامري بود.

از 1957 تا 1970: NLPتاريخچه مدلهاي آماري: استفاده از روشهاي احتمالاتي براي بازشناسي گفتار و OCR (Fodor,Bever,Garrett,Bresnan,Weinberg) اولين مدل فيزيکي-زباني قابل تست براييادگيري زبان و فهم آن پيشنهاد شد.

از 1970 تا 1980: NLPتاريخچه • استفاده از شبکه هايATN • Case Grammar: حل يکي از مسائل از ترجمه ماشيني نمايش معنايي: -schank و همکارانش تئوري وابستگي معنايي،که تئوريي دربيان زبان درواژه هاي اوليه معنايي است راارائه دادند. - ارائه نظريه شبکه هاي مفهومي که در فرم هاي مختلف براي ارائه دانش در بسياري از سيستم ها استفاده مي شد. - WILIIAM WOODSاز نظريه مفاهيم رويه اي براي عمل کردن به عنوان يک ارائه مياني بين يک سيستم پردازش زبان و يک سيستم پايگاه داده استفاده مي کرد.

از 1970 تا 1980: NLPتاريخچه • SHRDIU • LUNAR: يک سيستم واسط پايگاه داده که از مفاهيم رويه اي و ATNاستفاده مي کرد. • LIFER/LADDER : يکي از موثر ترين سيستم هايNLP که به عنوان يک واسط زبان طبيعي براييک پايگاه داده از اطلاعات در باره کشتي هاي ارتش آمريکا طراحي شده بود.

ادامه از 1980 تا 1993: NLPتاريخچه • NLP از 1980 تا 1990 : - گرامر رسمي(Grammar Formalisms) • NLP از 1990 تا حال: - چندزباني وچندبعدي (Multilinguality and Multimodality )

NLPکاربرد هاي • کاربرد ها مي توانند به راه هاي مختلفي دسته بندي شوند.به عنوان مثال: وسيله/بعد،عمق تحليلها ،درجه تعاملات. - کاربرد هاي بر پايه متن. - فهم زبان طبيعي. - سيستم هاي مکالمه. - چند بعدي.

کاربرد هاي بر پايه متن • پردازش متون نوشته شده مثل،کتابها،اخبار،مقالات،گزارش ها - يافتن سند مناسب در عنوان هاي مشخص از يک پايگاه داده متني. - استخراج اطلاعات از پيام ها مقالات،صفحات وب و ... - ترجمه سند از يک زبان به زبان ديگر. • تلخيص متن. * نکته: همه اين کاربرد ها نيازمند NLP نيستند. تکنيک هايي که بر پايه کلمات کليدي هستند مي توانند براي شناخت نواحي موضوعي خاص موفق باشند.

زبان طبيعيفهم • نيازمند يک سطح عميق از آناليز هستند: ”براي من پيدا کن همه مقالات در رابطه تصاد فات ماشينشامل بيش از دو ماشين در Malta در نيمه اول 2001“ • اينجا سيستم بايد اطلاعات کافي را براي مشخص کردن اينکه آيا مقاله ها ملاک تعريف شده اي به وسيله پرسش معرفي مي کنند، استخراج کند. • يک تشخيص قاطع از يک سيستم ،فهم اين است که آن، ارائه هاي اطلاعاتي که مي توانند براي واسط هاي بعدي مورد استفاده قرار بگيرند مي تواند محاسبه کند. - يک سوال قاطع براييک سيستم NLP اين است که چطور هوشمندي زيادي براي بدست آوردن هدف سيستملازم است .

کاربرد هاي بر پايه مکالمه ارتباط بين ماشين وانسان را شامل مي شود • سيستم پردازش پايگاه داده NL • سرويس هاي مشتري خودکار مثل سرويس هاي بانکي • سيستم حل مسئله NL عمومي • برخي از تفاوت هاي سيستم هاي متني و مکالمه اي: • زبان هاي استفاده شده زياد رسمي نيستند • استفاده از شرح تصديق هاي زير مکالمه اي

کاربرد هاي چند بعدي • شامل دو يا بيش از دو بعد ارتباطي است: • متن • گفتار • اشاره • تصوير • توليد سند هاي چند بعدي • سيستم هاي ترجمه گفتاري • سيستم هاي مکالمه گفتاري گفتار متن متن گفتار

شناسايي گفتار • زبان گفتاري شناسايي مي شود و مثلا در سيستمهاي ديکته ، به متن ،يا در سيستم هاي کنترل روبات ، به فرامين، يا به بازنمود دروني ديگري ، تبديل مي شود.

ترکيب گفتار • اداها (Utterance) در زبان گفتاري از متن (سيستم هاي متن – به – گفتار ) يا از بازنمودهاي دروني لغات يا جملات ( سيستم هاي مفهوم – به – گفتار)توليد مي شوند.

مقوله بندي متن • اين تکنولوژي متون را به مقولات اختصاص مي دهد. متون ممکن است به بيش از يک مقوله متعلق باشند، مقوله ها ممکن است حاوي مقولات ديگري باشند.تصفيه سازي حالت خاصي از مقوله بندي داراي تنها دو مقوله است.

تلخيص متن • مربوط ترين بخش هاي يک متن به صورت خلاصه استخراج مي شوند . اين کار به طول و درازاي مورد نياز خلاصه ها بستگي دارد. در صورتي که لازم باشد که خلاصه به يک پرسش معين مختص باشد ، تلخيص سخت تر است.

نمايه سازي متن • به عنوان پيش شرطي براي بازيابي سند ، متون در يک پايگاه داده اي نمايه سازي شده ذخيره مي شوند. معمولا متن براي همۀ شکلهاي کلمه يا – بعد از شرح و تفسير براي همۀ کلمات نمايه مي شود. گاهي اوقات نمايه سازي با مقوله بندي و تلخيص ترکيب مي شود .

بازيابي متن • متون از يک پايگاه داده اي که بيشتر با يک پرسش يا سند معين مطابقت مي کند ، بازيابي مي شوند . اسناد مورد نظر با توجه به مناسبت مورد انتظارشان مرتب مي شوند . نمايه سازي، مقوله بندي، تلخيص و بازيابي اغلب تحت اصطلاح بازيابي اطلاعات قرار مي گيرند.

استخراج اطلاعات • تکه هاي اطلاعاتي مربوط ومناسب اطلاعات کشف و براي استخراج نشان دار مي شوند: قطعات استخراج شده مي توانند به شکل هاي ذيل باشند: موضوع ، هويت هاي با نام از قبيل اسامي شرکت ، مکان يا شخص ، رابطه هاي ساده از قبيل قيمتها ، مقاصد، کارکردها و غيرو يا رابطه هاي پيچيده ازقبيل شرح دادن تصادفات ، ادغام شرکتها يا مسابقات فوتبال .

ترکيب داده ها و استخراج داده هاي متن • قطعات استخراج شده اطلاعات از چندين منبع در يک پايگاه داده اي ترکيب مي شوند. ممکن است مناسباتي که از قبل تشخيص داده نشده اند ، کشف شوند.

پاسخ به پرسش • پرسشهاي زبان طبيعي براي دسترسي به اطلاعات در پايگاه داده اي مورد استفاده قرار مي گيرند. پايگاه داده اي ممکن است مبناي داده هاي ساختاري شده يا مخزني از ستون ديجيتال باشد که در آن بخش هاي معين به عنوان پاسخ هاي بالقوه نشان دار شده اند.

ايجاد گزارش • گزارش به زبان طبيعي ايجاد مي شود که محتواي اساسي پايگاه داده اي يا تغييرات آن را شرح مي دهد. گزارش مي تواند حاوي اعداد جمع شده ، حداکثر، حداقل و بنيادي ترين تغييرات باشد.

تکنولوژي هاي ترجمه • تکنولوژي هايي که متون را ترجمه مي کنند يا به مترجمان کمک مي کنند . ترجمه خودکاريا ترجمه ماشيني خوانده مي شود . حافظه هاي ترجمه از مقادير بزرگي متن همراه با ترجمه هاي موجود براي دنبال کردن موثر ترجمه هاي احتمالي کلمات ، عبارات و جملات استفاده مي کنند.

طبقه بندي زبانهاي جهان

مقدمه ا ي بر پردازش زبان طب ي ع ي

مقدمه ا ي بر پردازش زبان طب ي ع ي

Presentation Transcript