ويكي مصدر تهوى المخطوطات

This page is a translated version of the page Wikisource Loves Manuscripts and the translation is 100% complete.


ويكي مصدر تهوى المخطوطات عبارة عن دعوة للعمل ومشروع لدعم رقمنة المخطوطات على ويكي مصدر.

الخلفية

صورة لمخطوطة من سعف النخيل البالية أثناء عملية الرقمنة في بالي.

في 2020–21 ، مولت مؤسسة ويكيميديا ​​مشروعين ساعد في إنشاء ويكي مصدر جديد باللغة البالية في إندونيسيا. ركز أحد المشروعين على إنشاء تقنية لدعم نسخ مخطوطات سعف النخيل المكتوبة بخط اليد على ويكي مصدر بينما ركز الآخر على مسح ورقمنة المزيد من المخطوطات من الأرشيفات والجامعين الفرديين. نعتقد أن هذه استراتيجية قابلة للتكرار للتعامل مع الثقافة والتراث.

تجربة ويكي مصدر تهوى المخطوطات في اندونيسيا

Pusat Pengkajian Islam dan Masyarakat (PPIM)، معهد أبحاث مقره جاكرتا، سيقود مشروع ويكي مصدر تهوى المخطوطات التجريبي في إندونيسيا بالتعاون مع ويكيميديا ​​إندونيسيا ومشروع WikiLontar الذي يقوده المجتمع، بدعم من مؤسسة ويكيميديا.

المناطق

سيركز المشروع على إنقاذ المخطوطات في ثلاث جزر: بالي وجاوة وسومطرة. تحتوي المخطوطات من هذه المنطقة على تنوع غني إلى حد ما من حيث اللغة والنص ودعم الكتابة ومحتوى النص.

التسلسل الزمني

  • أكتوبر إلى ديسمبر 2022 - التخطيط للمشروع والإعلان عنه
  • من كانون الثاني (يناير) إلى آذار (مارس) 2023 - أول مهمة تحرير وتدقيق لغوي
  • من أبريل إلى يونيو 2023 - مهمة التحرير الثانية وتصحيح التجارب المطبعية
  • يوليو إلى سبتمبر 2023 - ثالث مهمة تحرير وتدقيق لغوي
  • من نوفمبر إلى ديسمبر 2023 - تمديد البرنامج والتقارير

أنشطة أولية

رقمنةالمخطوطات

يتمثل النشاط الأساسي لهذا المشروع في رقمنة مجموعات المخطوطات التي تخص الأفراد والمؤسسات (المكتبات والمتاحف وما إلى ذلك) المعرضة للتلف. ستُصور جميع صفحات المخطوطة (أو تُمسح ضوئيًا) وستُرفع نسخة رقمية على ويكيميديا ​​كومنز بموجب ترخيص المشاع الإبداعي الكافي. ستُزود كل حزمة مخطوطة ببيانات وصفية كافية عبر ويكي بيانات.

تدقيق ويكي مصدر

ستُعالج بعد ذلك المخطوطات التي رُفعت إلى ويكيميديا ​​كومنز والتي تتضمن بيانات وصفية من خلال عملية النسخ باستخدام ويكي مصدر. ستُرقن المخطوطة بواسطة متطوعين باستخدام النص المطابق لذلك المستخدم في المخطوطة. لهذا السبب، ستكون هناك مقدمة لكيفية عمل ويكي مصدر للتعامل مع كتابة النصوص غير اللاتينية. وفي المرحلة القادمة ستُجرى مسابقة لنسخ المخطوطات من نتائج الرقمنة.

النسخ التجريبي

تُنسخ النصوص الموجودة على ويكي مصدر من خلال مزيج من التعرف الآلي على النص وتصحيحات المجتمع. يتيح التعرف البصري على الأحرف (OCR) عالي الجودة للمساهمين التركيز على تحسين جودة المحتوى، من خلال التدقيق اللغوي، بدلاً من إجراء النسخ الكامل يدويًا. إنه شرط أساسي لتوسيع نطاق مشاريع ويكي مصدر. حسّن فريق المؤسسة CommTech ويكي مصدر من خلال دمج محركين للتعرف الضوئي على الحروف، Google OCR وTesseract. لكن العديد من اللغات والمستندات لا تزال غير مدعومة بتقنية التعرف الضوئي على الحروف عالية الجودة على الويكي، بما في ذلك مصادر ويكي مصادر اللغة اللغة البالية واللغة الجاوية التي أُطلقت في عام 2021.

  • Transkribus ([موقع https://readcoop.eu/transkribus]) عبارة عن أداة للتعرف على النصوص والكتابة اليدوية مدعومة بالذكاء الاصطناعي ويمكن استخدامها لإنشاء نماذج التعرف الضوئي على الحروف (OCR) استنادًا إلى النسخ الموجودة على ويكي مصدر. بناءً على بحث أولي، لا توجد أدوات أخرى للتعرف على النصوص والكتابة اليدوية يمكن تدريبها لدعم أي لغة. هناك أيضًا طلب مجتمعي حالي (ويكيميديا البنغال الغربية) ومشاركة الشركاء (المكتبة البريطانية) مع Transkribus.
  • سيختبر فريق من IIIT Hyderabad من ذوي الخبرة في الرؤية الحاسوبية والتعلم الآلي التطبيقي جدوى Transkribus مع اللغات غير المدعومة في جنوب شرق آسيا. في المرحلة الأولى من البرنامج التجريبي، سنستخدم مستندات اللغة البالية التي نُسخت بالفعل بواسطة متطوعين على ويكي مصدر، من أجل بناء نموذج جديد للتعرف الضوئي على الحروف.

التحديثات

الفريق

PPIM

ويكيميديا إندونيسيا

IIIT حيدر أباد

  • الدكتور رافي كيران

مؤسسة ويكيميديا