ウィキソースは古文書が好き
背景
ウィキメディア財団は2020–21年次計画でインドネシアのバリ語版ウィキソースの新設を補佐したプロジェクト2件に出資しました。その一方はヤシの葉に記された手書きの古文書を電子化してウィキソースに収容する技術の開発に焦点を当てており、他方の趣旨は古文書館や個人コレクターの収集品にある古文書をもっと多く機械的に読み取り電子化することです。これは東南アジアの文化と歴史遺産に責任のある関与をする上で、場所や機会が変わっても複製できる戦略と考えます。
ウィキソースは古文書が好き、インドネシアのパイロット事業
Pusat Pengkajian Islam dan Masyarakat(PPIM)はジャカルタに本拠を置く研究機関であり、ウィキメディア・インドネシア協会ならびにコミュニティ主導のウィキロンタル事業(WikiLontar project)と提携してウィキメディア財団の助成事業としてインドネシアで「ウィキソースは古文書が好き」のパイロット事業を率先して行います。
対象地域
当プロジェクトの趣旨は3つの島にある古文書の救済です。バリ島、ジャワ島、スマトラ島。この地域で書かれた古文書は、地域語、文字の形態、添え字などの工夫、さらに文書の内容もかなり多岐にわたります。
日程
- 2022年10月–12月 - プロジェクトの立案と発表
- 2023年1月–3月 - 初回の古文書救済ミッション & 校正マラソン(proofread-a-thon)
- 2023年4月–6月 - 第2回古文書救済ミッション & 校正マラソン
- 2023年7月–9月 - 第3回古文書救済ミッション & 校正マラソン
- November to December 2023 - Program extension & reports
基本の活動
手書き原稿の電子化
The core activity of this project is to digitize manuscript collections belonging to individuals and institutions (libraries, museums etc.) that are in danger of being damaged. All pages of the manuscript will be photographed (or scanned) and a digital copy will be uploaded to Wikimedia Commons under sufficient Creative Common license. Each manuscript bundle will be provided with sufficient metadata via Wikidata.
ウィキソース校正マラソン
Manuscripts that have been uploaded to Wikimedia Commons and with metadata will then be processed through a transcription process using Wikisource. The manuscript will be typed by volunteers using the script corresponding to that used in the manuscript. For this reason, there will be an introduction to how Wikisource works to handle typing non-Latin scripts. In the next stage, a competition will be held to transcribe manuscripts from the results of digitization.
トランスクリバス実用試験事業
ウィキソースのテキストを転写する作業は、文字認識自動化ツールとコミュニティによる修正を組み合わせています。高品質の光学式文字認識システム(OCR)を使う投稿者は、文字起こしを手動ではなく全て自動処理し、校正作業とコンテンツの品質向上に集中できます。この作業形態はウィキソース・プロジェクトのスケールアップには前提条件です。ウィキメディア財団のコミュニティ技術チーム(CommTech)がウィキソース改善のためOCRエンジン2件を統合した対象はGoogle OCR と Tesseract ですが、2021年創設のウィキソースのバリ語版およびジャワ語版を含め、多くの言語と文書類は、まだ高品質のオンウィキ OCR システムのサポート対象ではありません。
- Transkribus(トランスクリバス公式サイト)はAI利用の文字と手書き文字認識ツールで、書き起こし用の OCR モデルの作成に使え、ウィキソースに収容できます。初期研究に基づき、あらゆる言語に対応するようトレーニング可能なものとしては、唯一の文字と手書き文字認識ツールです。トランスクリバスにはコミュニティの需要(西ベンガル語話者ウィキメディアン)to
提携契約先があります(大英図書館)。
- IIIT ハイデラバードに本拠地のあるチームはコンピュータ画像と応用機械学習の専門性を備え、東南アジアのサポート対象外言語を利用した Transkribus の視認性試験に取り組みます。パイロット事業第1段階では、ボランティアが既に書き起こしたバリ語文書でウィキソースに収容されたものを使い、OCR の新モデル構築に取り組みます。
更新情報
担当者
PPIM
ウィキメディア・インドネシア協会
|
IIIT ハイデラバード
|
ウィキメディア財団
|