نفاذ

تهدف نفاذ إلى أن تكون مصدراً أساسياً لنشر مقالات حول آخر الابتكارات في مجال نفاذ تكنولوجيا المعلومات. تصدر المجلة فصلياً باللغتين الإنجليزية والعربية.

أمثلة عن أدوات التعرف الضوئي على الأحرف

أمثلة عن أدوات التعرف الضوئي على الأحرف

يشير التعرف الضوئي على الأحرف إلى عمليات تقنية يقوم بها الحاسوب لتحويل صور النصوص المطبوعة أو المكتوبة رقميًّا أو المكتوبة بخط اليد إلى ملفات نصية، حيث يتطلب الكمبيوتر برنامج التعرف الضوئي على الأحرف لأداء هذه المهمة. ويسمح ذلك باسترجاع النص الموجود في الصورة وحفظه في ملف يمكن استخدامه في معالج النصوص للإثراء والتخزين في قاعدة بيانات أو على وسيط آخر يمكن استخدامه بواسطة نظام الكمبيوتر. هناك اليوم الكثير من محركات التعرف الضوئي على الأحرف المستخدمة مثل “جوجل درايف أو سي آر” Google Drive OCR و”تيسراكت” Tesseract و”ترانسيم” Transym و”أومني بيج”OmniPage ، وما إلى ذلك. بعضها مدفوع وبعضها الآخر مجاني.

التعرف على النص العربي هو موضوع بحث شائع، حيث يتم استثمار قدر كبير من الجهود البحثية لزيادة معدل دقة التعرف الضوئي على الحروف باللغة العربية باستخدام أساليب وتقنيات مختلفة. ففي عام 2002، تم تطوير نظام للتعرف على النص العربي الذي يستخدم الشبكة العصبية باستخدام مجموعة من معادلات ورموز غير متغيرة. وتم استخدام الشبكة العصبية الاصطناعية في التصنيف [1]. ولقد أظهرت بعض الدراسات معدل دقة عالٍ قدره 90% [2]. واستخدم مشروع بحثي آخر تم إجراؤه في عام 2017 قاعدة بيانات مكونة من 34000 حرف، وتم تخصيص ما نسبته 70% لتدريب التعلم الآلي، و15% لمرحلة الاختبار و15% للتحقق من الصحة. وحقق المشروع معدل تعرف 98.27% [3]. وفي عام 2018، استخدم مشروع يهدف إلى التعرف على اللغة العربية المكتوبة بخط اليد مجموعة بيانات تزيد عن 43000 عبارة عربية مكتوبة بخط اليد، 30000 استخدمت للتدريب و13000 لمرحلة الاختبار. وأظهرت نتيجة التعرف دقة بنسبة 99% [4].

ظهر عدد من الأدوات والخدمات في السوق نتيجة للتقدم في مثل هذا العمل البحثي. وأصبحت جودة ودقة أدوات التعرف الضوئي على الأحرف أكثر فعالية وتحسنت على مر السنين. واليوم، هناك مجموعة واسعة من حلول التعرف الضوئي على الأحرف المتاحة للاستخدام، من البسيط إلى المعقد. وقد تحتاج بعض هذه الأدوات إلى مهارات برمجة لجعلها تعمل بينما يكون البعض الآخر جاهزًا لاستخدام الحلول الجاهزة. وقد تختلف تكاليف الحل بناءً على ميزاته ودقته، في حين أن بعض أدوات التعرف الضوئي على الأحرف متاحة للاستخدام مجانًا. ويتم توفير تفاصيل موارد التعرف الضوئي على الأحرف الأكثر شهرة في السوق في الجدول أدناه:

الاسم سنة التصميم الترخيص عبر الإنترنت لغة البرمجة أدوات تطوير البرمجيات اللغة العربية
QATIP 2016 مجاني نعم غير معروف   العربية
Google Cloud Vision 2016 ملكية نعم غير معروف نعم العربية؛ الفصحى الحديثة/ العامية

+

أكثر من 200

Tesseract 1985 رخصة استخدام Apache لا C++, C نعم العربية +

أكثر من 100

ABBYY FineReader 1989 ملكية نعم C/C++ نعم العربية + 192
Asprise OCR SDK 1998 ملكية نعم جافا، C#، VB.NET، C / C + + / دلفي نعم العربية غير مدعومة + 20
برنامج AnyDoc Software 1989 ملكية لا في بي سكريبت Vbscript العربية غير مدعومة
“كوني فورم” CuneiForm 1996 رخصة بي إس دي BSD لا C/C++ نعم العربية غير مدعومة
“داينيمسوفت أو سي آر إس دي كى”

Dynamsoft OCR SDK

2003 ملكية نعم C/C++ نعم العربية + 40
“أومني بيج”

OmniPage

السبعينات ملكية نعم C/C++, C#[15] نعم العربية + 125
“أو كارد” Ocrad 2003 رخصة جي بي إل GPL نعم C + + نعم أحرف لاتينية
“سمارت سكور” SmartScore 1991 ملكية لا موسيقي
تصوير مستندات مايكروسوفت ملكية لا العربية
“بوما. نت”

Puma.NET

2006 رخصة بي إس دي BSD لا C # نعم العربية غير مدعومة + 28
“ريد سوفت” ReadSoft ملكية لا العربية غير مدعومة
“أو سي آر فيدر” OCRFeeder 2009 رخصة جي بي إل GPL لا بايثون العربية غير مدعومة
“أو سي آر أوبس” OCRopus 2007 رخصة استخدام Apache لا بايثون جميع اللغات باستخدام الكتابة اللاتينية (يمكن التدريب على اللغات الأخرى)
[1] Muna Ahmed Awel, Ali Imam Abidi, Review on optical character recognition, International Research Journal of Engineering and Technology (IRJET), p-ISSN: 2395-0072, Volume: 06 Issue: 06 | June 2019

[2] M. M. Altuwaijri and M. A. Bayoumi, “Arabic text recognition using neural networks,” pp. 415–418, 2002.

[3] N. Lamghari, M. E. H. Charaf, and S. Raghay, “Hybrid Feature Vector for the Recognition of Arabic Handwritten Characters Using Feed-Forward Neural Network,” Arab. J. Sci. Eng., vol. 43, no. 12, pp. 7031– 7039, 2018.

[4] N. A. Jebril, H. R. Al-Zoubi, and Q. Abu Al-Haija, “Recognition of Handwritten Arabic Characters using Histograms of Oriented Gradient (HOG),” Pattern Recognit. Image Anal., vol. 28, no. 2, pp. 321–345, 2018.

 

 

Share this