Wikisource Loves Manuscripts
Latar belakang
Pada tahun 2020-21, Wikimedia Foundation mendanai dua proyek yang membantu menciptakan Wikisource baru dalam Bahasa Bali di Indonesia. Salah satu fokus proyek tersebut adalah menciptakan teknologi untuk mendukung transkripsi manuskrip lontar yang ditulis tangan di Wikisource, sedangkan fokus lainnya yaitu memindai dan mendigitalisasi lebih banyak manuskrip dari arsip dan kolektor perorangan. Kami percaya bahwa ini adalah strategi yang bisa dilakukan kembali untuk mempererat hubungan dengan budaya dan warisan di Asia Tenggara.
Wikisource Loves Manuscripts pilot di Indonesia
Pusat Pengkajian Islam dan Masyarakat (PPIM) adalah lembaga yang berlokasi di Jakarta yang akan menjalankan proyek pilot Wikisource Loves Manuscripts di Indonesia berkolaborasi dengan Wikimedia Indonesia dan komunitas penggerak proyek Wikilontar, dengan dukungan dari Wikimedia Foundation.
Wilayah
Proyek ini akan berfokus pada penyelamatan manuskrip di tiga pulau: Bali, Jawa dan Sumatra. Manuskrip dari wilayah tersebut memiliki keragaman yang sangat kaya baik dalam segi bahasa, aksara, bahan tulis, dan isi teksnya.
Linimasa
- Oktober hingga Desember 2022 - Perencanaan proyek dan pengumuman
- Januari hingga Maret 2023 - Misi digitalisasi pertama & proofread-a-thon
- April hingga Juni 2023 - Misi digitalisasi kedua & proofread-a-thon
- Juli hingga Semptember 2023 - Misi digtalisasi ketiga & proofread-a-thon
- November to December 2023 - Program extension & reports
Kegiatan Utama
Digitalisasi manuskrip
Kegiatan inti dari proyek ini yaitu mendigitalisasi koleksi manuskrip yang dimiliki oleh perorangan dan lembaga (perpustakaan, museum dan sebagainya) yang terancam bahaya kerusakan. Seluruh halaman manuskrip akan difoto (atau dipindai) dan salinan digitalnya diunggah ke Wikimedia Commons dengan lisensi Creative Commons yang memadai. Setiap bundel manuskrip akan disediakan informasi metadata melalui Wikidata.
Wikisource proofread-a-thon
Manuskrip yang telah diunggah ke Wikimedia Commons bersama metadatanya akan diproses melalui transkripsi menggunakan Wikisource. Manuskrip akan diketik oleh para sukarelawan menggunakan aksara yang sesuai dengan aksara pada manuskripnya. Atas alasan ini, akan dilakukan perkenalan tentang cara kerja Wikisource untuk mengetik aksara non-Latin. Dalam tahap berikutnya, akan diadakan kompetisi untuk mentranskripsi manuskrip hasil digitalisasi.
Uji coba Transkribus
Teks di Wikisource yang ditranskripsi melalui perpaduan antara rekognisi teks secara otomatis dan perbaikan oleh komunitas. Kualitas Optical Character Recognition (OCR) membantu kontributor untuk fokus memperbaiki kualitas konten, melalui uji baca, dibanding melakukan transkripsi secara manual sepenuhnya. Ini adalah prasyarat untuk memperluas proyek Wikisource. Tim CommTech dari Wikimedia Foundation meningkatkan Wikisource dengan mengintegrasikan dua mesin OCR, Google OCR, dan Tesseract. Tetapi banyak bahasa dan dokumen masih belum didukung dengan OCR on-wiki berkualitas tinggi, termasuk Wikisources bahasa Bali dan Jawa yang diluncurkan pada tahun 2021.
- Transkribus (website) adalah alat pengenalan teks dan tulisan tangan bertenaga AI yang dapat digunakan untuk membuat model OCR berdasarkan transkripsi di Wikisource. Berdasarkan penelitian awal, tidak ada alat pengenalan teks dan tulisan tangan lain yang dapat dilatih untuk mendukung bahasa apa pun. Ada juga permintaan komunitas yang ada ( Wikimediawan Benggala Barat) dan keterlibatan mitra (British Library) dengan Transkribus.
- Sebuah tim dari IIIT Hyderabad dengan keahlian dalam penglihatan komputer dan pembelajaran mesin terapan akan menguji kelayakan Transkribus dengan bahasa-bahasa yang kurang didukung di Asia Tenggara. Pada tahap pertama uji coba, kami akan menggunakan dokumen berbahasa Bali yang sudah ditranskripsikan oleh sukarelawan di Wikisource, untuk membangun model OCR baru.
Pembaruan
- Januari 2023
- Februari 2023
- Maret 2023
- April 2023
- Mei 2023
- Juni 2023
- Juli 2023
- Agustus 2023
- September 2023
- Oktober 2023
- November 2023
- Desember 2023
Tim
PPIM
Wikimedia Indonesia
|
IIIT Hyderabad
|
Wikimedia Foundation
|