Learning patterns/Data transfers to Wikimedia Commons: Sharing institutional archives/ja
解決される問題
文化機関がそのデータアーカイブを一般に公開する意義とは
機関の保管する貴重なデータセットを無料のメディア保管庫に供与する意義には、次の各点が考えられます。第三者による再利用ならびに文脈化と普及の手続きを簡略化します。 データは、たとえばウィキペディアへの統合や、バリアフリーに科学的な文脈での使用が実現します。アーカイブしたデータは、新しく創造的で革新的な技術の適用や開発の基礎となります。ボランティアによって、以前は知られていなかった詳細な背景情報が調査され、特定できます。
これまで多くの機関で無料のデータの利点にご賛同いただくことができました。ドイツのBundesarchiv (連邦公文書館) は2008年、写真8万点超を公開、その後、たとえばウィキペディアの記事に掲出され—毎日数十万人の読者が閲覧しています。Veikkosアーカイブの独創的なコレクションからコモンズに供与を受けたパブリックドメインの封緘4万点は、受領直後からウィキメディアの姉妹プロジェクト群のボランティアコミュニティによって仕分けと分類が実施され、さらにデータ割り当てを行いました。
その他の事例をいくつかご紹介すると、「Coding Da Vinci」というフリーカルチャーの文化ハッカソンによりベルリン工科経済大学 (Hochschule für Technik und Wirtschaft) 所蔵の歴史的な繊維製品の標本のデータセット、ベルリン市内シャルロッテンブルク=ヴィルマースドルフ区自治体が保管してきた18世紀の歴史的文書、ベルリン市立ミュージアム財団による市内の公立博物館の地質標本の画像、さらにベルリン民族博物館 (Staatliche Museen zu Berlin) からは音声ならびに動画ファイルの供与を受けました。
ところが、無料のメディア保存庫Wikimedia Commonsに素材をアップロードする標準的な機能は、当初、基本的に少数のデータやメディアファイルを処理する目的で設計されていました。
解決策は?
通常、データアーカイブの全体もしくはまとまった量の転写はなんらかの準備が必要で、データあるいはそのメタデータの種類により内容が変わります。このページの学習パターンでは、もっとも一般的な手順やツールの使い方への入門を解説していきます。
コモンズへのアップロードに適したファイル形式とは?
ファイル形式
コモンズの場合、別ページにあげたファイル形式はすべて適合しています。
画像解像度・圧縮率・ファイルのサイズ
アップロードするメディアファイルのサイズはできるだけ大きく、また画質の劣化を最小に抑えてこそ、継続的な再利用からもたらされるであろう可能性を十分に活用できます。せっかく手間をかけて画像を圧縮してサイズを下げても、かえって利便性を下げてしまい欠点を増やすことになりかねません。
そうは言っても技術面の理由により、コモンズの規定のアップロード設定のままだと上限があります。ファイルサイズの詳細はこちらでご確認ください。
ファイル名
これは選択肢ですが、ファイル名は内容を示す表現に、さらに資料番号や台帳番号を加えます。芸術作品を礼にすると、作家名+作品名+資料番号という構成が考えられます。書籍をスキャナで読み取った場合は次の要素を組み合わせたファイル名にすると便利です。著者名、題名、ページ番号。ファイル名のつけ方について、一般的な説明はこちらをご参照ください。
コモンズにまとまったデータをアップロードするには何を用意するか?
無料のメディア貯蔵庫であるコモンズにデータを転写するには、インターネット接続のほか無料登録できるコモンズの利用者アカウントと、無料でデータを送信する装置をご準備ください (詳細は以下でっご説明します。) それらに加え、データのアップロード条件としてフリーライセンスのもとで公開していただきますので、アップロードする機関が必ず当該ファイルの著作権保持者でなければいけません (すでにパブリックドメインである場合を除外。)
ウィキメディア・コモンズの詳細は、次の各ページもご参照ください。
コモンズの利用者アカウントを作る方法は?
コモンズの利用者アカウントをこちらで作成します (もしくはまずアップロード試験用にコモンズベータで作成するにはこちら。) このアカウントを使って、ウィキペディアその他のウィキメディアの姉妹プロジェクトを利用できます。ご所属の機関で編集作業に携わる人ごとに、個別にアカウントを登録すること、また「利用者名 (機関名)」の形式で登録することを強くお勧めします。利用者アカウント作成の詳細は、こちらをご参照ください。
ウィキメディアの姉妹プロジェクトには、ある機関に所属する複数の個人が単一の利用者アカウントを共用することを認めるものと認めないものがあります。特に英語版ウィキペディアではアカウントの共有を認めず、ひとり1アカウントと規定しています。そこで英語版ウィキペディアで編集活動をするご予定でしたら、ぜひ機関にご所属のご担当が個人ごとに1アカウントずつ登録するよう、くれぐれもご配慮をよろしくお願いいたします。
登録後、利用者アカウントの照合をお勧めします (現在、透明性と安全性確保の理由により、ドイツ語版ウィキペディアとコモンズ限定で可能です)。機関や組織の利用者アカウント確認については、情報はすべてこちら (ドイツ語) ならびにコモンズのこちらをご参照ください。
登録利用者はそれぞれ、利用者ページに自己紹介を記入できることから、ご所属機関の紹介と、あるいはアップロードしたメディアファイルの一覧だけ掲載することもできます (以下の#アップロード後にデータをどのような形で紹介しますか?もご参照。) 利害関係が存在する場合、利用者ページにのみ掲載します。これは、ウィキメディアの編集を有償で行う場合、利用者ページ上で誰から報酬を受けているか、明確にしなければなりません。Meta-Wiki上の利用者ページは、他のすべての姉妹ウィキに自動的に転写されます。利用者ページの詳細は、こちらに一覧があります。
アップロード用に使えるツールとは?
1点から数点のファイルをアップロードする場合は、使い勝手がよい UploadWizard で用は足りるでしょう。ウェブ上に公開済みの単体ファイルをコモンズにアップロードする場合は、簡略で便利なURL2 Commons をご利用ください。
さらにまとまった点数のデータをアップロードする場合は、VicuñaUploaderもしくはPattypanを代わりにお勧めします。ウェブ上に既にまとまった点数のデータを公開され、それぞれの個別のメディアデータごとにメタデータがある場合は、GWToolsetを使ってそれらデータをコモンズに転写できます。以上2件のプログラムの詳細は、以下でご説明します。
「VicuñaUploader」を使う (オフラインで利用可能なデータをフォルダ単位でアップロード)
VicuñaUploader のソフトウェアの概要の説明はこちらをご参照ください。無料のダウンロードと英語版マニュアルがそれぞれご利用いただけます。
VicuñaUploaderをアップロードに使う方法:
- Files→ Read files アップロード対象ファイルを読み込む。
- Edit → Select all すべてのファイルを指定。
- Edit → Edit selected files description 選択したファイルの説明を編集する。
- Descタブ 解説文を
{{en|Description Text in English}}
の部分に記述。 - 英語以外の解説文を記入するには、
{{ja|日本語の解説文}}、
{{de|ドイツ語の解説文}}
、{{fr|フランス語の解説文}}
などと指定。 - メニューのDate ファイルの日付をDate templateにしたがって指定。
- Categories ファイルのカテゴリを指定 (詳細は以下の説明をご参照。)
- Tools → Settings 作家名、情報源やライセンス情報の記入欄。License欄は自由記述式で、テンプレート (プロジェクト用やデータセット用) を使用するには、二重波カッコ内に入れ子に記述 (これらテンプレートの詳細は以下の説明をご参照。)
「GWToolset」を使う (オンライン上のデータを転写する方法)
詳しい情報はCommons:GLAMwiki_Toolset#説明をご参照ください。
前処理と準備
注意: GWToolsetを介してアップロードするには、プログラミングの基本的な知識が必要です。
- アップロードは先にコモンズベータでテストすることをお勧めします。そちらで成功してから、コモンズ本体で同じアップロードの手続きを再現してください。
- オンラインで利用可能なデータをGWToolsetを介してコモンズに転送するには、コモンズ利用者アカウントに特別な利用者権限が必要です。こちらで申請し、承認を得てからGWToolsetにアクセスすると使用できます。
- 次のステップとして、ソースデータを含むサーバをホワイトリストに登録する必要があります。これはPhabricatorのこちらのリンクで申請します。Phabricatorのログインはコモンズもしくはウィキペディアの利用者アカウント (「MediaWikiにログインまたは登録」の直下のリンク) を使用します。申請の承認には、しばらく時間がかかる場合があります (約1週間の見込み)。申請の処理中は随時、Phabricatorで状態を確認することをお勧めします。
- 写真のポータルサイトFlickrなど、GWToolsetは既に一部のサーバをホワイトリストに登録しています。ファイルがFlickrにある場合、簡略なツールflickr2commons toolまたはUploadWizardを使うと、直接、ファイルを転送できます (利用者権限の「URL経由のアップロード」が付与された利用者の場合)。ただし、これらのツールを利用すると、Flickrが規定する追加情報 (画像の説明など) も転送され流転にご留意ください。
GWToolset を使ったアップロード用に XML ファイル を準備
GWToolsetを介してアップロードする場合、フラットなXMLファイルを作成し、すべての画像/ファイルのメタデータを記入する必要があります。このようなファイルの作成と手順について、以下の説明と有用なヒントをご参照ください。データの変換と処理には、プログラミングの基本的な知識が必要です。XMLファイル作成の手順は、大きく5段階で構成されています。
- メタデータを機械読み取り可能な書式に変換する
- ファイルを規定のデータ構造に読み込む
- データ欄を固有の形に整える
- カテゴリ用データ欄の作成
- XMLファイルの作成
1. Cメタデータを機械読み取り可能な書式に変換
画像1点ごとにメタデータファイルには最低必要なデータがあり、ファイル名、題名、画像のURLの3つです。表形式で収蔵品のメタデータを管理する文化機関が多いため、これから先の説明では、表形式に基づいてご説明します。その他の書式として、JSONあるいはXMLも一般的です。表形式データを機械可読データに簡便に変換する方法は、CSV形式への変換です。手順としてはメタデータファイルを表計算ソフトで開き、エクスポート機能を使ってCSV形式に変換します。表計算ソフトの種類は問いません。
2. ファイルを規定のデータ構造に読み込む
この先の手順には、スクリプト用コンピュータ言語 (Ruby、PHP、Perl、Python) を使います。下記のサンプルコードはRubyで記述してあります。例として、以下のサンプルから抽出したデータを使い、リンク先には実用できるサンプルプログラムが置いてあります。
まず最初にファイルを1行ずつ読み取り、データ欄を有効なデータ構造に転写します (MapやDictionaryなど)。ここでは仮にCSVファイルに列が5つ—「題名」「URL「説明」「カテゴリ」「製作年」—あるとします。これを抽出するには、以下のコードを書きます。
metadata = []
CSV.read(file, col_sep: ';').each do |row|
metadata << {
title: row[0],
url: row[1],
description: row[2],
categories: row[3],
year: row[4]
}
end
3. データ欄を固有の形に整える
メタデータにはしばしば、そのまま無加工の形ではコモンズに持ち込めない欄があります (例えば検索パターンや命名規準の不一致が原因)。もしそれを自動処理で調整できる場合は、生のメタデータを処理するクラスを作成します。
データの読み取り:
class ImageMeta
attr_reader :title, :url, :description
// creating instance variables from the “fields” hash
def initialize(fields)
fields.each { |field, value| instance_variable_set "@#{field}", value.strip unless value.nil? }
end
end
特定のクラス内で、必要な欄を変換する方法を作成します。上記のサンプルの場合、「製作年」にMediaWikiの日付テンプレートを当てるなら、次の記述になります。
def year
"{{Date|#{@year}}}"
end
その他の欄も、同様の手順で特定の形に整えます。次にステップ2で読み取ったメタデータから、規定したクラスに合わせてオブジェクトを作成します。
metadata.map! { |fields| ImageMeta.new(fields) }
4. カテゴリ用データ欄の作成
GWToolsetを介して画像をアップロードし、正しいカテゴリに分類するには、カテゴリごとにメタデータファイル内の個別のXMLタグを割り当てます。生のカテゴリデータをカテゴリリストに変換する手順は、まずCSVファイルから抽出し、次にカテゴリに割り当てていきます。例えばカテゴリがCSVファイルの特定の列にカンマ区切りで記載してある場合には、ImageMetaクラスのカテゴリを以下の記述で抽出します。
def raw_categories
@categories.split(',').map(&:strip)
end
カテゴリ転送を柔軟に実行するため、次のように、専用のクラスを作成する方法もあります。
class CategoryMapping
MAPPING = {
'Radierung' => 'Etchings',
'Lithografie' => 'Lithographs',
'Aquatinta' => 'Aquatint',
'Mappe' => 'Portfolios'
}
def initialize(raw_categories)
@raw_categories = raw_categories
end
def mapped_categories
return [] if @raw_categories.nil?
categories = []
@raw_categories.each do |category|
categories << MAPPING[category] if MAPPING[category]
end
categories.uniq
end
end
5. XMLファイルの作成
さてすべてのday他の準備が整いました。XMLファイルの作成に移ります。GWToolsetで用いるXML要素の命名は任意に設定できるものの、ツールには特定のXML構造が必要です。各画像のXML要素はルート要素の配下で、メタデータは各XML要素の配下に入ります。ただし画像要素内では、これ以上入れ子にすることはできません。
上記のサンプルを使うと、XML構造は次のとおりになります。
builder = Nokogiri::XML::Builder.new(encoding: 'UTF-8') do
images do
metadata.each do |image|
image do
title image.title
description image.description
year image.year
imageUrl image.url
mapping = CategoryMapping.new(image.raw_categories)
mapping.mapped_categories.each_with_index do |category, i|
send "category#{i}", category
end
end
end
end
end
builder.to_xml
builder.to_xml
の出力をファイルに書き込むと、GWToolsetを介するアップロード用のXMLファイルが完成です。
データ転写の処理を始めるには
特定の手順と、それぞれの入力欄の詳細を以下の動画のキャプチャで説明します。
- GWToolsetを立ち上げます。 https://commons.wikimedia.org/ → 特別ページ → GWToolset の順にたどるとみつかります。
- メタデータ検出のため、画面で入力を求められた項目を記入、→送信 に進みます。
- メタデータのマッピングに必要な項目を記入、→バッチをプレビュー に進みます。重要:カテゴリを使用するには、先に "コモンズではデータの整理と分類の方法は?”の節をお読みください。
- プレビューを確認。ファイルの順序と、コモンズに保存される順序が一致する場合は、スタックを処理ボタンをクリックし、転送を開始。
GWToolsetを介して転送要求が送信されると、ブラウザウィンドウを閉じてコンピュータの電源を落とすことができます。背景では、サーバ間の転送が進行中です。新しいファイルの一覧ならびにアップロード中に指定したカテゴリには、ファイルがだんだん表示されます。
アップロード後にデータをどのような形で紹介しますか?
収蔵品のアップロードが終わり、新しくコモンズに加わったこれらを紹介するわけですが、あわせてぜひウィキメディア・プロジェクトのボランティアの皆さんに連絡を取るためにも、当該のデータセット専用のプロジェクトページを作成するようお願いしたいのです。そのページを使い、アップロードした収蔵品を一括表示したり、それらのデータが代表するコンテキストとして、プロジェクトまたは共同作業をご紹介ください。なお、実行に当たってコモンズは何ではないかという条件にもぜひご配慮をお願いします。
一般的にプロジェクトページは画像ギャラリーの形式で作成され、デザインはお任せになっています。詳細な説明はこちら。
既存のプロジェクトページよりサンプル:
- Fotothek (ドイツ語版) German Fotothek
- ドイツ政府の公文書保管機能 German Federal Archives
- ベルサイユ宮殿を主題にしたメディア集 (ドイツ語版) Château de Versailles
コモンズのデータ整理法と分類法は?
コモンズでファイルを整理し検索の利便性を高めるには、カテゴリ構造に落とし込むことがお薦めの方法です。ファイルは一つ残らずカテゴリ構造に組み込む必要があります。これを確実にするため、ファイル1件ごとに直接、もしくはギャラリーページに置き集合体としてカテゴリ配下に置きます。またカテゴリは1件ずつ親カテゴリに分類され、樹状の構造 (家系図に似た) を構成します。
その詳しい手順は、こちらのサンプルに示します。
画像に実際に表現された主題のほか、前例として多くの機関や企業が実施してきたように、カテゴリを決める要素にアップロードする機関の種類を必ず指定します。
これを実現するには、ファイル1件ずつにテンプレートを添付すると、そこにカテゴリの詳細に加え画像を供与した組織の情報も盛り込めます。(以下もご参照ください: "データセット用テンプレートを使う/ プロジェクトテンプレート"。)
データセット用テンプレートを使う/ プロジェクトテンプレート
データセット用テンプレートとは?
「データセット用テンプレート」と呼ばれるものは、個別のメディアファイルの説明ページに置くことがあります。そこにはご所属の機関の短い説明と、そのファイルがどのデータセットに属しているか記します。さらにプロジェクト用テンプレートを用いてファイルの分類をすると、共通のデータセットもしくは提供機関単位でその他のファイルをまとめて検出することができます。Mediawikiのテンプレートの詳細はこちらをご参照ください。
個別のプロジェクト用あるいはコモンズの提携先専用のテンプレートを作成するには?
コモンズの協同提携先用のテンプレートは、サンプルをこちらのページにご用意しています。テンプレート作成にお困りの場合は、WikiProject Templatesにリクエストを投稿してください。
プロジェクト用テンプレートに実際に記載された情報は、他のテンプレートから転記されることから、それぞれ、以下のように個別に設定が必要です。
Template:機関名-source
→ メインのテンプレート。下位に附属するサブテンプレートの配置情報を記述します。さらにカテゴリを設定し、このテンプレートを使用するすべてのページをまとめます。
Template:機関名-source/レイアウト
→ レイアウトの設定。こちらでたとえばロゴの表示や文字のレイアウトを指定します。
Template:機関名-source/lang
→ 現状の言語で説明文を作成
Template:機関名-source/en
→ 説明文の英語版
Template:機関名-source/de
→ ドイツ語版
テンプレートにほかの言語に対応した版を作成し、ぜひ「Template:機関名-source/言語」とつなぐリンクを作成してください。
テンプレート内の各要素の事例:「Hochschule für Technik und Wirtschaft Berlin」の場合 (ベルリン工業経済大学):
- ソース Template:Hochschule für Technik und Wirtschaft Berlin-source
- レイアウト Template:Hochschule für Technik und Wirtschaft Berlin-source/layout
- 言語 Template:Hochschule für Technik und Wirtschaft Berlin-source/lang
- ソース (英語) Template:Hochschule für Technik und Wirtschaft Berlin-source/en
- ソース (ドイツ語) Template:Hochschule für Technik und Wirtschaft Berlin-source/de
ソースコードを表示するには (転記の場合も)、それぞれのテンプレートの「編集」ボタンをクリックします。
ファイルにテンプレートを導入する方法
以下のコードをファイルの説明ページに追加すると、テンプレートがファイルに導入されます。追加する位置は通常、ライセンス情報の直下です。 {{template name}}
また、上記のアップロードツールを利用する場合、コードを配する位置にはいくつか型があります。詳細はツールの解説 (上述) をご参照ください。
その他のテンプレート
プロジェクトのテンプレートは通常は対象施設とコモンズの連携に用いられ、それに加えてご所属の機関専用のテンプレートを新規に作成する方法があります。使用法はファイルの解説ページへの記入、また内包するデータとして所蔵機関の地理的位置、設立日、公式サイトのURLなどを追加することができます。
サポートをもっと増やすための問い合わせ先
ウィキメディア・ドイツ支部にはボランティアや文化施設を対象に、保管されているデータの公開と転写ならびに連携を支援する「Medienschatz」あるいは「GLAM」 (文化施設支援プログラム) など既存の事業やプログラムがあります。
ご質問は以下の宛て先までどうぞ。
- community@wikimedia.de (ボランティア向け)
- glam@wikimedia.de (文化機関向け)
GWToolsetに関する質問は、専用のメーリングリストに投稿すると支援が受けられます。
関連項目
その他のマニュアル類
- 一括アップロードの手引き commons:Commons:Guide to batch uploadingは、従来型のガイド。
関連のある学習パターン集
- アーカイブ記録のデジタル化 Digitizing archival records
- インド電子図書館をとても使いやすくする方法 Making the Digital Library of India really useful
- ウィキメディアコモンズの利用者投稿画像に一括でカテゴリを設定する Batch categorizing users' photos in Wikimedia Commons
- 文化機関と共同でアーカイブ用写真をアップロードする Working with cultural institutions to upload archival photographs
外部リンク
- コモンズのGLAMwikiツールセット
- (GWToolset) のヘルプ
- 一括アップロード用ツールを求める小規模なGLAMプロジェクト向きの助成金
- 大英図書館の事例:xml記録の作成とOpenRefineの利用によるウィキメディア向けの一括アップロード処理