300 likes | 458 Views
ال هيكلة الآل ية للنّصوص العربيّة باقتباس المفاهيم الشّكلية المثالية. علي الجوَة ، أزهر السعيدي ،آمنةعثمان ، فاطمة عبد الله ، ابتسام محسن. الملتقى العالمي الرابع في ممارسة علوم الحاسب باللغة العربية. CSPA08. التصميم. العربية المقدمة الهيكلة الآلية للنصوص الانجليزية
E N D
الهيكلة الآلية للنّصوص العربيّة باقتباس المفاهيم الشّكلية المثالية علي الجوَة، أزهر السعيدي ،آمنةعثمان، فاطمةعبد الله، ابتسام محسن الملتقى العالمي الرابع في ممارسة علوم الحاسب باللغة العربية CSPA08
التصميم العربية المقدمة الهيكلة الآلية للنصوص الانجليزية تطوير محركات البحث الهيكلة الالية للنصوص و الوثائق العربية نظرية المفاهيم الشكلية التجارب و التطويرات الحالية اللآفاق
اختصار الأفكار و تحليلها عمليتان عكسيتان. عندما نريد تلخيص معاني النص نقتبس منه الكلمات التي تدل على معانيه الأساسية فنحذف التكرار و نعوّض الكلمات المتشابهة بأقصر كلمة، كما نصنّف الجمل لتمثيلها بعناوين وجيزة. بينما عندما نريد تفسير الكلمات نكوّن جملا لتوضيح علاقتها بكلمات أخرى فنقوم بعمليّة عكسية بتكرار مفيد للقارئ أو السّامع لتبليغه ما تقصده الكلمات. فمثلا يقسّم الكتاب الى أجزاء حيث يدلّ عنوان كل جزء على معانيه الأساسية، كما تدلّ عناوين فقراته على معانيه الجزئية. في هذا العمل نقترح طريقة آلية لتحويل النّصوص الى هيكل متكوّن من كلمات تنظّم النص الى أجزاء مرتبطة بمفاهيمه الأساسية، حسب درجة أهميتها. فيمكن استعمال هيكل الكلمات لاسترجاع مسيّر ناجع مباشر في النص حسب المعاني المطلوبة. و من المشاكل التي يجب حلّها و لو بطرق تقريبية نجد: أوّلا: طريقة تقسيم النص الى مفاهيم أساسية و ثانيا: اختيار أو ابتكار كلمات لتسمية المفاهيم المقترحة.
تحديد الكلمة • يتكون النص من كلمات تم تحديد معانيها سابقا. و أغلب الظن يتم اختراع الكلمة الجديدة بعد تحديد مفهوم جديد باستعمال كلمات معروفة سابقا من أجل تقصير وقت توصيل المعلومة بين المتحاورين. للكلمة قوة معنوية يمكن بها الاستغناء على تركيبها النحوي. و هذا ما نستغله للتحليل الآلي للنصوص. • الكلمة هي اسم مفهوم معين الهدف من اختراعها هو تصنيف المعلومات. • يمكن تقييم القوة النسبية للكلمة في النص حسب كثافة وضعها أو محيطها في النص. • اذا كان اختيار الكلمة يتطلب التصنيف لكل الفضاء اللغوي فسيتطلب ذلك وقتا كبيرا يعجز به الأنسان من التحدث الا بعد صمت طويل. • ما هي الخوارزمية الطبيعية التي تمكن الانسان من التكلم ؟ • عندما نقرر التفكير في مشكل معين عبر كلمة أو مجموعة كلمات تحسب قوى الكلمات و يسلك التفكير الطرق الاقوى لمتابعة تفكيره بكل رصانة.
ملخّص • هيكلة النصوص بتحويلهم الي شجرة كلمات من الأهم الى أقل أهمية حسب المعاني الأساسية • نظريّة تحليل المفاهيم الشّكليّة. • تحويل النص الأصلي إلى علاقة ثنائية بين أجزاء النص من جهة و الكلمات المفاتيح الموجودة في النص من جهة أخرى. • تتابع أجزاء (جمل أو فقرات) من النص الأكثر اتّصالا ببعضها البعض عبر الكلمات و الموجودة في المفهوم الشكلي المثالي المقتبس من السياق الثنائي الذي يمثّل النص الأصلي. • ترتيب المفاهيم حسب كثافتها و اعطاء اسم لكل مفهوم باستعمال خوارزمية لاختيار احسن كلمة تمثل المفهوم • تمكين المستعمل من البحث و قراءة النص عبر شجرة الكلمات • البحث أعطي نتائج مقبولة
المقدّمة • المنظومات الذكية لاسترجاع البيانات • التّحليل الشكلي للمفاهيم طريقة رياضيّة مقنعة المفاهيم الشكليّة • حجم البيانات الموجودة في كثير من المستندات أولويّة في اختيار المفاهيم المفاهيم الأكثر كثافة لتلخيص نص مدمج مع طرق تقدير أهمّية الكلمات المتشابهة • طريقة تكوين الآليلشجرة الكلمات المقترحة
الأساسيّات في الرّياضيّات • النظريّات الرّياضيّة المتعلّقة بالبنايات المنفصلة • ذات استعمالات وتطبيقات مهمّة في علوم الحاسب • الهيكل المنظم والمسمّى (lattice structure)
السياق الثنائي أو العلاقة الثنائية تعريف السياق الثنائي المتعلّقة
تحديد المفهوم الشكلي يمكن استنتاجالمفاهيم التالية س2 {} x { ج1 ، ج2 ، ج3، ج4، ج5} س2 {ب} x { ج2 ، ج 1، ج3،ج4} س2{ت} x { ج 3 ، ج4 ، ج5} س2 {أ، ب} x { ج1، ج2} س2{ب، ت} x {ج3، ج4} س2{ت، د} x { ، ج4ج5} س2 {ت، د، ب} x {ج4 } س2{ د،أ،ب،ت } x {}
الهيكل المنظّم للمفاهيم الشّكليّة
تحديد المفهوم الشكلي المثالي • المفهوم الشكلي المثالي هو الذي يحتوي على أكثر كثافة. نقيّم كثافة المفهوم بالعبارة: • ك = ع * خ - (ع + خ) • حيث ع = عدد عناصر المفهوم الشكلي. خ = عدد خصائصه. • حيث: ع=2 ، و خ=3 ، ك=3 * 2 – (3+2) =1 • نجد الثلاث المفاهيم الشكلية المثالية التالية: • }أ، ب} x { ج1، ج2{ • }ب، ت} x {ج3، ج4{ • }ت، د} x { ، ج4 ج5{
المفهوم الشكلي و الإختصارالإقتصادي في المعلومات
الّتحليل بالمفاهيم الشكلية • أهمّية المفهوم الشّكلي من طرف نظرّيات مختلفة • تطبيقات عديدة لنظرية المفاهيم الشكلية • نطبّق النظرية لتكوينشجرة كلماتلتمثيل معاني النص واستعمالها للبحث في النصوص
هيكلة النصوص العربية باقتباس المفاهيم الشكلية المثالية • المرحلة الأولي • تقرير طريقة تقسيم النص إلى جمل، فقرات أو محاورومن ثم بناء العلاقة (س) الثنائية التي تربط كل جزء من النص بكلماته المفيدة الغير المتشابهةبكلماته المفيدة الغير المتشابهة • نعتبر أن كلمتين متشابهتان إذا كان لهما نفس الفعل المجرد أو اذا كان لهما 3 أو أكثر حروف مشتركة بنفس الترتيب.
هيكلة النصوص العربية و الإنجليزية باقتباس المفاهيم الشكلية المثالية • المرحلة الثانية • - في المرحلة الثانية نقوم بالبحث على المفهوم الشكلي المثالي الذي يربط الكلمات الغير متشابهة بأكبر عدد ممكن من الجمل التي تنتمي اليها كما يمكن قراءته في الرسم الموالي: • البحث على المفهوم الشكلي المثالي بالاعتماد على العلاقة الثنائية R
5- فيالمرحلة الثالثةنقومبتقييم كل المفاهيم و ترتيبهم من الأكثر الى الأقل كثافة مما يمهد لبناء شجرة المفاهيم. ثم نستعمل طريقة استكشافية لتسمية كل مفهوم بكلمة معينة نقتبسها من المفهوم نفسه. و لهذا نحدد لكل كلمة وزنا يساوي وزن المفهوم الأكبر كثافة الذي تنتمي اليه الكلمة. و بفضل هذا التحديد الأخير نبني شجرة ((HEAP حسب الترتيب التنازلي لوزن الكلمات.
اقتباس المفاهيم علاقة R مفاهيم RE1,RE2, andRE3 w1 w2 W3 w4 w5 w1 w2 w3 A B C D E A B C C D W3 W4 w5 C D E W4 w5
بناء شجرة 3 مفاهيم: RE1(3) RE2(1) RE3 (1)
تسمية المفاهيم w1 w3 w4
في الصفحات الموالية يمكن مشاهدة النص على اليمين و شجرة الكلمات على اليسار. • أخيرا تم تصميم الباحث اللآلي الذي يمكننا من اقتباس جزء من النص حسب الكلمة التي يختارها المستعمل من الشجرة المعروضة
تجربة المنظومة على النصوص العربية
التجارب على النصوص العربية • كما بيناه سابقا يسمح النظام الذي تم تطويره وتجربته للمستخدم بإدخال النص المطلوب للبحث فيه ،ويكون خاليا من الصور والرموز وغيرها من الحروف غير النصية ، ثم تتم عملية التجزئة أو التقسيم و استخراج جذور الكلمات إلى تكوين العلاقات الثنائية ثم استنتاج المفاهيم الشكلية وهي التي تمثل العلاقة الاقتصادية الأكبر the highest economy relation التي تربط بين جذور الكلمات والجمل التي وردت بها، وتتواصل المعالجة حتى الحصول على كل المفاهيم الشكلية التي تمثل كل العلاقات الثنائية الممكنة . وأخيرا يتم عرض النتيجة للمستخدم على شكل • تلخيص ذات مستويات تدرجية عدةmulti view summary حيث نكون لدى المستخدم نافذان : الأولى في يمين الشاشة وتعرض النص الأصلي مع توضيح الجمل التي تم اختيارها بلون خاص ، وعلى يسار الشاشة يتم عرض نتيجة البحث على شكل شجرة مهيكلة بطريقة هرمية تظهر في مختلف مستوياتها مختلف المفاهيم الشكلية التي تم تكوينها .
من المشاكل المزمع حلها : • - التقصير من المدة الزمنية لتنفيذ البرنامج: خاصة عند البحث على المفاهيم المثالية • - استعمال قاموس المترادفات • وقد تم أخيرا تصميم طريقة جديدة للبحث على شبه المفاهيم المثالية تعتمد على ترتيب عناصر العلاقة الثنائية حسب وزنها.
الخاتمة • 5-الخاتمة • يفتح هذا البحث سلسلة من المنظومات حول النصوص العربية التي ستساهم في الفهم الآلي للكتب و الرسائل عن طريق الحاسوب، في زمن تكاثر النصوص المعروضة عن طريق الشبكات و أصبح من المستحيل قراءتها كليا من طرف أي مستعمل. و من البديهي أنه حان الوقت لاستغلال وقت شبكات الحاسوب المرتبطة للهيكلة الآلية العريضة و الدقيقة للنصوص لتقصير وقت المستعمل قبل اختيار الكتاب الالكتروني أو الرسالة التي يقرر قراءتها والمساعدة على فهمهابطريقة قراءة مسيرة جديدة . نعتبر أن المنظومات التي تم تصميمها في البحث الآتي مهمة و قابلة للتحسين على العديد منالمستويات. كما نتوقع تطبيقات هذا العمل لمساعدة المعاقين في استعمال المنظومات للقراءة و الكتابة و الاتصال الأسرعمما سيرفع من ادماجهم و رفع معنوياتهم. • (*) نشكر جامعة قطر لتمويلها لهذا البحث -.
الهيكلة الآلية للنّصوص العربيّة باقتباس المفاهيم الشّكلية المثالية شكرا الملتقى العالمي الرابع في ممارسة علوم الحاسب باللغة العربية CSPA2008