1 / 28

إصلاح انحناء وتقوس الكتابة في صور الوثاق العربية القديمة

إصلاح انحناء وتقوس الكتابة في صور الوثاق العربية القديمة منصف الشرفي – وفاء بوصلاعة – محمد عادل العليمي وحدة البحث للآليات الذكية RE search G roup on I ntelligent M achine ( REGIM ) جامعة صفاقس - المدرسة الو طن ية للمهندسين بصفاقس – تونس

harlan-paul
Download Presentation

إصلاح انحناء وتقوس الكتابة في صور الوثاق العربية القديمة

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. إصلاح انحناء وتقوس الكتابة في صور الوثاق العربية القديمة منصف الشرفي – وفاء بوصلاعة – محمد عادل العليمي وحدة البحث للآليات الذكية REsearch Group on Intelligent Machine (REGIM) جامعة صفاقس - المدرسة الوطنية للمهندسين بصفاقس – تونس المؤتمر العالمي الرابع لممارسة علوم الحاسوب باللغة العربية الدوحة – قطر، 1- 4 أفريل 2008

  2. الفهرس • المقدمة • أهمية و مزايا ترقيم المكتبات • إشكاليات ترقيم الوثائق القديمة • واقع إصلاح انحناء وتقوس الكتابة في الوثائق القديمة • إصلاح الانحناء بطريقة البيضاوياتوتطبيقها • الطريقة المقترحة • النتائج والتحليل • الخاتمة والعمل المستقبلي

  3. المـقـدمـة • التراث الثقافي والعلمي من المكتسبات الهامة قي العالم، يعكس تنوع اللغات والثقافات بين الشعوب، • الوثائق المخطوطة العربية القديمة تمثَل جزءًا هامًّا من هذا التراثوهي تحملثروةثقافية نفيسة وفريدة من نوعها، يجب الحفاظ عليها، • لذلك أصبح ترقيم هذه الوثائق ومعالجتها بالطرق المعلوماتية الحديثةضرورة ملحة لبقائها بصفة دائمة في حالة حسنة للأجيال القادمـة، • للوصول لهذهالأهداف، على المكتبات العربية أن تتطور وتستعمل الإمكانيات الهائلة التي توفرها المعلوماتية والتكنولوجيات الحديثة، • يعتبر إصلاح انحناء وتقوس الكتابة في صور الوثائق القديمةعملية هامة من عمليات ما قبل المعالجة فهو يحسّن بصفة جلية في مرد ودية أنظمة التعرف الآلي للكتابة.

  4. أهمية ترقيم المكتبات • المكتبات الحالية مكان تجمع كمية هائلة للأوراق تستلزم فضاءات شاسعة، • يمكّن الترقيم من استعمال الشكل الرقمي الالكتروني للوثائق و بالتالي التقليل من استعمال الورق،وتكريسشعار ”مكتب بدون ورق“ • المكتبات الحالية منغلقة على نفسها وتكتفي بما لها من وثائق ذاتية، وعليها أن تنفتح على المكتبات الأخرى لاكتمالها، • لا يمكن حل كل هذه المشاكل إلا باستعمال الوسائل الرقمية الحديثة، لأن  المكتبات تتحمل مسؤولية تمكين الباحثين والقراء من زادها الوثائقي وتسهيل الإطلاع عليه وإثرائه وتطويره،

  5. مزايا ترقيم المكتبات • المحافظة على الكتب و الوثائق القديمة • تحسين إمكانيات المطالعة بتوفير شكل إلكتروني للكتاب للقارئ • المطالعة الجماعية للكتاب الواحد عبر شبكة الإنترنت • إحياء المخطوطات القيّمة والنّادرة و نشرها على الأقراص الليزرية. • تمكين المستعمل من الشكل الالكتروني ومن أدوات خاصة تسهل التعمق في دراسة الوثيقة.

  6. إشكاليات الوثائق القديمــة القراءة الآلية الكاملة للوثائق المخطوطة عملية دقيقة وصعبةلكثرةتنوع الخط ولأن ميدان الوثائق يتطلب فهارس ومناجد أكبر بكثير من فهارس ومناجد التعرف الآلي للكتابة. يتعرض هذا الميدان إلى عدة عراقيل، منهـــــا: •  اعوجاج الصفحـــات وانحناء وتقوس الكتابة، •  النص الظاهر في شكل "أمـــواج”، • مناطق الظل الناتج عن داخل التسفيـــر، •   ظهور النص المكتوب خلف الصفحـــة بفعل شفافية الورق، •  ظهور بقع الندى والرطوبة على الورق، مما يجعل القراءة غير ممكنة، •   الأوراق البالية أو المطويـــــة، •   تنوع أشكال الكتب والخـــــط.

  7. نماذج صور وثائق عربيةقديمة رسم 1: عينة من صور لوثائق عربيةقديمة ونرى الشوائب العالقة بها

  8. معالجةوتحليل الوثائق القديمة ترميم الوثيقة وتنقيتها من البقع إصلاح هندسي صورة خام للوثيقة صورة معالجة تصوير الوثيقة بآلة السكنار تحليل الصور صور محللة ضغط الصور رسم 2: سلسلة تحليل ومعالجة الوثائق القديمة

  9. مبررات إصلاح انحناء وتقوس الكتابة في الوثائق القديمة • عند عملية الترقيم، يمكن أن تظهر على صورة الوثيقة تشوهات كثيرة خاصة بالنسبة للوثائق ذات الحجم الكبير، المسفّرة و المتكونة من عدد كبير من الأوراق، • يظهر تقوس في الكتابة وانحناء في خطوط النصوص وتغير في الإضاءة على مختلف أجزاء الصفحة المرقمة. • الدراسة المقدمة في هذا المقال تهتم بمرحلة ترميم صورة الوثيقة وهي مرحلة هامة من مراحل ما قبل المعالجة في سلسلة تحليل الوثائق. • نركز هنا على إصلاح الانحناءات والتقوسات في الكتابة، والذي يمكّن بدوره من تحسين نسبة التعرف في أنظمة القراءة الآلية للكتابة من جهة، ويمكّن القارئ من قراءةمباشرة أيسر ومريحة أكثر بالنسبة لنفس الوثيقة بدون إصلاح.

  10. واقع إصلاح انحناء وتقوسالكتابة في الوثائق القديمة أنجزت عدة أدوات معلوماتية في ما يخص الوثائق القديمة اللاتينية، تمكّن من تقويم الكتابة بعد إجراء التحويرات الهندسية اللازمة عليها. رسم 3: وثيقة تحمل نصا لاتينيا مطبوعا ذات أسطر منحنية ومقوسة رسم 4 : نفس الوثيقة بعد إصلاح انحناء الكتابة بها.

  11. إصلاحانحناء وتقوسالكتابة في الوثائق القديمة • بعضطرق و مراحل إصلاح انحناء الكتابة وحدودها: • - ينجز اكتشاف الانحناء و التقوس على مستوى أسطر النصوص، • جربت طريقة شودوري على الوثائق الهندية ذات الخطوط المتعددة، • تم إنجاز خوارزمية خاصة أسماها "X-Y cut" للتقطيع المتناوب ذات الاتجاهين X و Y. • تنجز الإصلاحات بتطبيق التغييرات الهندسية التي تحول البيكسالات قي الصورة الخام لتجد مكانها الأصلي بأكثر دقة ممكنة. • خوارزمية لها حدودها : تتأثر أشكال الأحرف بفعل الإصلاح الهندسي ويمكن أن تظهر فوار ق تؤدي إلى تعدد أشكال الأحرف حتى في المناطق ذات الانحناء الضعيف.

  12. إصلاحانحناء وتقوسالكتابة في الوثائق العربية القديمة • - عدد الأبحاث في ميدان إصلاح انحناء الكتابة في الوثائق العربية القديمة محدود جدٍّا • اقتصرت الأشغال التي تمّ إنجازها على الوثائق العربية بصفة عامة • أعمال مرحلة ما قبل المعالجة في الوثائق القديمة مثل إصلاح الانحناء والتفريق بين السطور وتقدير السطر القاعدي هي أعمال تمثل مراحل أولية ذات أهمية كبرى تدخل في إنجاز نظم التعرف الآلي للكتابة المخطوطة. • نتائج هذه النظم مرتبطة كثيرا بمرحلة ما قبل المعالجة. • تعتمد طريقة إصلاح الانحناء على احتساب زاوية السطر • افتراض أن الزاوية هي نفسها بالنسبة للوثيقة كلها، لا يكون صحيحا إلا إذا كانت الوثيقة كلها منحنية وليس لبعض الأسطر فقط. • يبقى المقياس الأهم لطريقة إصلاح الانحناء هو أن الكلمة العربية تكتب على خط قاعدي، والذي يتم التعرف عليه بالحصول على قمة حادة في رسم الإسقاط الأفقي. • تكمن الفكرة الأساسية في هذه المقاربة قي اقتراض أن الخط القاعدي للكلمة معروف مسبقا، لكن عندما تكون الكلمات غير مفرقة يتم العمل بمجموعة من الكلمات أو ما يسمى بالعناصر المرتبطة. • يقع إصلاح الانحناء أو التقوس بدوران الكلمة حول مركزها في الاتجاه المعاكس.

  13. إصلاح انحناء وتقوسالكتابة في الوثائق القديمة العربية رسم 5 : استشعار الخط القاعدي في مجمو عــة من الكلمات العربية المخطوطة على أسطر منحنية

  14. رسم 6 : إصلاح الانحناء لكل كلمة

  15. - نقائص الخوارزمية : الانحدار الذي يتولد عن البحث عن الخط القاعدي المحتوي على كلمات بها نقاط ورموز شكل كبيرة بالنسبة لحجم الكلمة. • - يمكن حل هذا المشكل بفسخ النقاط والرموز أوليا قبل البحث عن السطر القاعدي • لاحتساب انحناء النص اختار سيهاد أن يقارن بين أربع طرق : طريقة ترنكلين، طريقة التساقط، تغييرات هوغ، وطريقة التربيعيات الاصغر. • تعتبر هذه الطريقة سريعة وغير حساسة للتشويش وملائمة لعدد كبير من الوثائق المحتوية على رسوم ولكنها تستلزم سطورًا محددة لليسار وهي غير ملائمة للوثائق ذات الأعمدة المتعددة. إذ أن مقياس الزاوية يكون بين °10- و °10+ درجات. • تعتمد طريقة التساقط على احتساب الرسم البياني التاريخي والأفقي لصورة الوثيقة لكل زاوية تنتمي إلى مجال الاكتشاف. • تعتبر هذه الطريقة سهلة التركيز وملائمة للوثائق ذات البنية البسيطة، لكنها غير ملائمة للوثائق المتشعبة المحتوية على رسوم أو صور فوتوغرافية وتكون زاوية الانحناء بين °10- و °10+ درجات. • طريقة هوغ هي تقنية تمكن من اكتشاف السطور والخطوط المنحنية وهي مستعملة أيضا لاكتشاف زاوية انحناء تكون بين 0 و 180 درجة. هذه الطريقة مضبوطة ودقيقة و ملائمة لوثائق متعددة الأعمدة، ولكنها تستلزم ذاكرة كبيرة ووقت معالجة مرتفع جدّا.

  16. يمكن تطبيق هذه الطريقة على الكتابة العربية المطبوعة التي تتميز بأنها كتابة مسترسلة ويعتمد هذا التطبيق على الربط بين الأحرف، يفسر هذا الاختيار باعتبار أن الروابط ترتكز على نفس السطر ولها نفس الطول ونقس الارتفاع. • يتم اكتشاف الروابط على النحو التالي : • استخراج و تصفية العناصر المرتبطة • اكتشاف و تصفية الروابط • اكتشاف زاوية الانحناء رسم 7 : تصفية العناصر المرتبطة

  17. (a) نص منحني (b) استشعار الروابط (c) نقاط مراكز الروابط (d) النص بعد إصلاحه رسم 8 : مراحل اصلاح الانحناء - قدر وقت الاشتغال بالنسبة لمائة صورة ب 12 ثانية وهو وقت ضئيل جدا مقارنة بوقت اشتغال برنامج يستعمل جميع نقاط الصورة وهو 30 دقيقة و 18 ثانية - نسبة الضبط 89% لاكتشاف مدقق لزاوية الانحناء، وهذه النسبة تصل الى 96% إذا اعتبرنا مجال خطأ °1 .

  18. سبب قلة التدقيق متأت من الروابط المكتشفة في الأحرف المكتوبة تحت السطر والموجودة قي آخر الكلمات ومن الحالة السيئة لبعض الوثائق. • طريقة "الجيران الأقرب" تعتمد على احتساب اتجاه السطر الرابط بين كل مكونتين جارتين اثنتين. تعتبر الطريقة ملائمة للوثائق ذات الأعمدة المتعددة. في المقابل، فإن وقت المعالجة مرتفع جدا وتعتبر الطريقة حساسة للتشويش وللكتابة المسترسلة للوثائق العربية.

  19. طريقة متوازي الأضلاع تقدر الطريقة زوايا الانحناء المكوّنة من متوازيات أضلاع أو بالمناطق المكملة لها. يتم بناء كل متوازي أضلاع بإتباع السطور بمختلف زوايا الانحناء. تقسم السطور إلى مجموعة من القطع حسب عدد المناطق. تكمن الفكرة الأساسية قي اعتبار أن زاوية الانحناء هي نفسها بالنسبة لكل سطور النص. توضع كل مكونات الوثيقة في متوازي أضلاع ذات زاوية انحناء "α" سطور متوازية ذات زاوية α رسم 9 : بناء متوازي الأضلاع

  20. طريقة متوازي الأضلاع (أ) وثيقة ذات أسطر منحنية ب 4,6- درجات (ب) الوثيقة مقربة لموازيات أضلاع منحنية 4,6- درجات (ج) صورة تقريبية للوثيقة بزاوية انحناء بدرجتين رسم 10 : بناء متوازيات الأضلاع لمختلف زوايا الانحناء معدل وقت اشتغال البرنامج : - 1,53 ثانية لدرجة انحلال 300 نقطة في البوصة - 0.26 ث لدرجة انحلال 100 نقطة في البوصة.

  21. طريقة البيضاوياتوتطبيقها • اقترحها بايو وكوما [Bab 06] • تعتمد على : • البحث على اتجاه كل كلمة في النص. و التعرف على المكونات المرتبطة. • البحث على زوايا الانحناء الأقرب في البداية. • يرتكز تقدير زاوية الانحناء على البحث على مركز كل مكون مترابط في الوثيقة وعلى إحاطته بشكل بيضاوي. • يكون اتجاه مكون مترابط زاوية تحصر بين المحور المرجعي والمحور الأساسي الذي يدور حوله العنصر المرتبط بدفعة دنيا.

  22. طريقة البيضاوياتوتطبيقها (أ) إحاطة العنصر المرتبط بشكل بيضاوي(ب) احتساب زاوية اتجاه الكتابة رسم 11 : طريقة التعرف على زاوية الانحناء

  23. طريقة البيضاوياتوتطبيقها • يقع تقدير زاوية الانحناء بإنجاز الرسم البياني التاريخي لكل زوايا الانحناء قي الوثيقة وبالبحث عن القمة القصوى. • نحصل بذلك على العدد الأقصى للكلمات المتجهة في هذا الاتجاه • معدل الاتجاهات يمثل زاوية الانحناء . • أمكن تقدير نجاعة المثال الخوارزمي المقترح بتجربته على بنوك معطيات مختلفة. • يقدم الجدول التالي احتساب الخطأ بالنسبة للزاوية المتحصل عليها بمقارنتها بالانحناء الأصلي. يبين الجدول أن نسبة الخطأ تنحصر بين 1.5 و 2% .

  24. النتائج جدول 1 : مقارنة نتائج الانحناء لمختلف الكتابات

  25. الطريقة المقترحة • يتبين من دراسة واقع إصلاح الانحناء السابقة أن مقاربات التعرف على الانحناء في صور الوثائق كثيرة ومتعددة، • جلها مطبق على الوثائق المطبوعة اللاتينية، وتستعمل في التعرف على زواياانحناء في مجال°]15+،°15-[. • وقت التعرف يكون عادة مرتفعا خاصة عند استعمال طريقة هوغ. • نقترح مقاربة ترتكز على طريقة البيضاويات : • - هي طريقة أبسط من حيث عدد المراحل المتبعة ووقت التعرف • - وقع تطبيق هذه المقاربة على الوثائق العربية القديمة المطبوعة. • - يتم التعرف على العناصر المرتبطة، ثم يتم تقدير زاوية الانحناء بالبحث على مركز كل عنصر مرتبط، هذا المركز هو مركز البيضاوية المحيطة بالعنصر المرتبط. • وتكون زاوية الانحناء المحصورة بين المحور المرجعي والمحور الأساسي (رسم 12).

  26. صورة الوثيقة مكتشف كاني تمطيط الصورة حساب زاوية الانحناء θ دوران الصورة حسب الزاوية θ صورة الوثيقة بعد إصلاح الإنحاء رسم 12 : سلسلة إصلاح انحناء الكتابة على الطريقة المقترحة

  27. النتائج والتحليل . (أ) نص منحني (ب) نص ممطط (ج) النص بعد إصلاح الانحناء رسم 13: تطبيق الطريقة المقترحة على نص ذات سطر واحد منحني (أ) نص منحني ذات 3 أسطر(ب) الصورة ممططة (ج) صورة النص بعد إصلاح الانحناء رسم 14: تطبيق الطريقة المقترحة على نص ذات عدة أسطر منحنية

  28. الخاتمة والعمل المستقبلي عرضنا وطبقنا قي هذه الورقة مقاربة لإصلاح الانحناء في صور الوثاق العربية المطبوعة. وقد فصلنا مراحل الطريقة المتبعة التي ترتكز على تقنيات بناء البيضاويات للنص المنحني، وذلك لتقدير زاوية الانحناء. هذه التقنيات القائمة على التمثيل الرياضي، وجدت نجاحا هاما في معالجة النصوص اللاتينية والهندية. تعد النتائج المتحصل عليها بعد تطبيقها على النصوص العربية المطبوعة جد مشجعة وتفتح الآفاق لأعمال أخرى كالوثائق العربية المخطوطة وغيرها من الوثائق، والمأمول تطوير خوارزميات تمكن من تقدير الزوايا لكل قطعة أو شبه قطعة للسطر المنحني. يعتبر هذا العمل مرحلة هامة من مراحل ما قبل المعالجة للوثائق القديمة وذلك لتحسين نوعيتها للقارئ المطلع عليها من جهة وترفيع نسبة التعرف في أنظمة التعرف الآلي للكتابة من جهة أخرى.

More Related