حوسبة النص العربي - مشروع إثراء

تعتبر اللغة العربية من أكثر اللغات انتشارا حول العالم، حيث يزيد عدد الناطقين بها عن 422 مليون شخص(ويكيبيديا)، مماجعلها تحتل المرتبة الخامسة للغات الاكثر انتشارا في العالم. فلا ريب في أن اللغة العربية استمدت مكانتها وضمنت استمراريتها من القرآن الكريم الذي ضمن الله سبحانه وتعالى حفظه من التبديل والتحريف، ليضمن بذلك استمرار هذه اللغة إلى أن يرث الله الأرض ومن عليها. يقول سبحانه وتعالى (إِنَّا نَحْنُ نَزَّلْنَا الذِّكْرَ وَإِنَّا لَهُ لَحَافِظُونَ) الحجر الآية 9.

تتركب أبجدية اللغة العربية من 28 حرفا، وتشترك الكثير من اللغات في استخدام هذه الحروف ومن هذه اللغات: الفارسية والكردية والأردية والمالاوية والعثمانية وغيرها من اللغات التي تشترك في خصائص اللغة العربية من شكل الكتابة ومن حيث نطق الكلمات. إلا أن هذه اللغات اضيف إليها بعض الحروف الإضافية لضرورة نطق بعض الكلمات الأعجمية عند الشعوب الناطقة بهذه اللغات.

ومع ظهور الحاسب الآلي وشيوع استخدامه في جميع انحاء العالم، وفرت الشركات المصنعة البرمجيات المطلوبة للتعامل مع اللغة العربية، ومع تطور هذا الجهاز تطورت البرمجيات المتخصصة في التعامل مع النصوص العربية. إلا أن ظهور الاجهزة اللوحية وتطور طرق ادخال البيانات للحاسوب كالكتابة على شاشات العرض لتصبح وسيلة إدخال وإخراج للحاسب الالي، كل ذلك توجب تطوير البرمجيات اللازمة للتعامل مع النص العربي المكتوب على هذه الشاشات والتعرف على النصوص آليا من قبل الحاسب الالي ليتم الاستغناء عن لوحة المفاتيح التقليدية واستبدالها ببرامج متطورة للتعرف على النص المدخل. كما أن ضرورة التعامل مع المستندات والمخطوطات وأهمية إدخالها للحاسب الالي ومن ثم معالجتها فتح المجال لموضوع معالجة هذه المستندات وتحويل نصوصها إلى مادة قابلة للتحرير مباشرة بدون إعادة إدخالها يدويا للحاسب الالي.

خصائص النص العربي

تتكون الكلمات العربية بكتابة حروف متصلة ومرتبطة لتكوين كلمة مفهومة. تتكون الحروف العربية من 28 حرفا وتكتب من اليمين إلى اليسار. وقد يكون للحرف الواحد أربعة أشكال اعتمادا على موقعه في الكلمة. كذلك كثير من الحروف مكونة من جزئين وهما الجسم وعدد من النقاط أو الأشكال فوقها أو تحتها أو داخلها. ويكون عدد النقاط إما واحدا أو اثنان أو ثلاثة للتمييز بين الحروف المتشابهة شكلا ونطقا. أما الأشكال فهي كثيرة منها الهمزة والمدة والشدة وعلامات الضبط. أيضا بعض الحروف تقسم الكلمة إلى جزئين نظرا لعدم وجود شكل متوسط للحرف كحرف الدال والذال والراء والواو كما هو مبين في الجدول التالي الذي يعرض الحروف العربية حسب موقعها من الكلمة.

الشكل في نهاية المقطع الشكل في وسط المقطع الشكل في بداية المقطع الشكل المنفصل الحرف
ـــــا أ ألف
ــــب ـــــبـ بـ ب باء
ـــــت ـــــتـ تـ ت تاء
ــــث ــــثـ ثـ ث ثاء
ــــج ــــجـ جـ ج جيم
ـــح ــحـ حـ ح حاء
ـخ ــــخـ خـ خ خاء
ـــــد د دال
ــــذ ذ ذال
ـــــر ر راء
ــــز ز زاي
ـــــس ـــــسـ سـ س سين
ـــــش ـــــشـ شـ ش شين
ــــص ــــصـ صـ ص صاد
ــــض ــــضـ ضـ ض ضاد
ـــــط ـــــطـ طـ ط طاء
ـــــظ ــــظـ ظـ ظ ظاد
ــــع ـــعـ عـ ع عين
ــــغ ــــغـ غـ غ غين
ــــف ــــفـ فـ ف فاء
ـق ـــــقـ قـ ق قاف
ــــك ــــــكـ كـ ك كاف
ــــل ـــــلـ لـ ل لام
ــــم ـمـ مـ م ميم
ــــن ــــنـ نـ ن نون
ــــه ـهـ هـ ه هاء
ـــــو و واو
ـي ــــــيـ يـ ي ياء

أما فيما يتعلق بخصائص النص العربي المكتوب باليد فيمكن اضافة أن الكتابة تعتمد على اسلوب الكاتب في تنسيق الكلمات وتركيب وشكل الحروف المستخدمة لتركيب الكلمات كما هو موضح في الشكل التالي:

a

وكما أسلفنا سابقا، فإن النص العربي يُكتب من اليمين إلى اليسار إلا أن بعض الكتاب يستخدمون النسق العمودي لتركيب بعض الحروف كما هو موضح بالشكل التالي:

fj

هذه الخصائص شكلت تحدياً كبيراً للبحاث والمبرمجين للتعامل مع النص العربي، حيث تختلف خصائص النص العربي عنها في اللغات اللاتينية والصينية وغيرها من اللغات، وصعوبة استخدام التقنيات البرمجية في التعامل مع النص العربي.

في المقالات القادمة سيتم إن شاء الله الحديث حول انواع التعرف على الكتابة والنصوص بشكل عام وعلى التعرف الضوئي للنصوص العربية كمثال على ذلك.

عن الكاتب

مصطفى أبوزريدة

عميد كلية تقنية المعلومات بجامعة مصراتة

تعليقان



اضف تعليق

لن يتم نشر عنوان بريدك الإلكتروني.


يمكنك استخدام HTML وسوم واكواد : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>