Mix'n'match/Manual

This page is a translated version of the page Mix'n'match/Manual and the translation is 46% complete.
Outdated translations are marked like this.
Other languages:
English • ‎asturianu • ‎català • ‎dansk • ‎español • ‎français • ‎italiano • ‎polski • ‎suomi • ‎русский • ‎日本語

Mix'n'match (ミックスアンドマッチ) は外部ソースに由来するさまざまな話題を一覧にし (ミックス)、Wikidata の項目との一致 (マッチ)を拾い出すと、既存か項目が未登録か識別します - 「ステロイドにおける赤リンクを一覧にした場合をご参照ください 。開発者は Magnus Manske です。」

現在はカタログ2500 件に対応、オックスフォード英国人名事典Oxford Dictionary of National Biography (完了)、オーストラリア人名事典Australian Dictionary of Biography (完了)、国立肖像画美術館の収蔵品台帳National Portrait Gallery (52.5% 照合済み) などがあります。

この方法で照合すると、特定の言語版のウィキペディアで未掲載の項目、あるいは特定の話題を最もよく網羅した言語版など検討しやすくなります。

動作の仕組み

Mix'n'match では項目を次の5つに分類します。

 
ある人名録の照合状況のサンプル。
  1. 手動で照合: ある利用者が手動でこの人名録の掲載内容とウィキデータの項目を照合 (ウィキデータからインポートした項目も対象)。
  2. 照合を自動処理: システムが掲載内容とウィキデータ内で照合すると判断した項目を検出、ただし人間の目で確認が必要。
  1. ウィキデータになし: 人名録の項目はウィキデータの項目と照合しなかった。
  2. ウィキデータに該当しない (N/A): 項目はウィキデータに掲載不要とマークされた (たとえば重複項目か、プレースホルダやリダイレクトか、不適切な話題か。)
  3. 適合なし: この項目は未掲載だが自動処理でお薦めはない。

目的はもちろん、可能な限り多くの掲載内容を手動で照合してマーク (あるいはウィキデータと一致する可能性がないことを確認) することです。このツールを使用するには必ずウィキメディアプロジェクトにアカウントを登録し、WiDaRツールを認証します。

Widar の認証が済むと、2つの処理モードから選択します。半自動もしくは手動です。

  • Search for a specific name using the search box in the header bar. This will bring you to a search result page.
    • See also List mode below for how to use the list of results.
    • In the search result page, you can also limit the search to a specific catalog.
    • You may also search a Qid; this will return all entries that the item is matched to. Searching external ID is not supported.
    • It is not guarentee that the search result page contain all entries matching a specific name; in particular the list may be truncated if there're too many results.
  • Select a specific catalog and then go to a catalog page.

In a catalog page, you will see the number of entries in each category, and the history of number of matches. Clicking a specific category brings you to the List mode. You will also see an "Action" menu, including the following:

  • Fully matched, Preliminarily matched, Unmatched, No Wikidata, Not applicable to Wikidata - links to List mode for all entries in this specific category.
  • Multiple matches - links to List mode for all preliminarily matched entries with multiple automatically-suggested matches.
  • Site stats
  • Download
  • Match mode - see below.
  • Recent Changes in this catalog
  • Aliases
  • Jobs
  • Search only in this catalog
  • Names in other catalogs
  • Manually sync catalog
  • Catalog editor
  • Mobile matching
  • Visual tool
  • Find images
  • Changes last week
  • Catalog report

半自動モード (ゲームモード)

 
半自動モード (ゲームモード) のサンプル

半自動モードを選択すると、トップページに表示される情報はカタログの識別子 (Catalog ID) と題名 (Catalog Name)、そしておそらくはそのカタログから提供された簡単な説明 (Catalog description) もあります。カタログの種別や誰が対象か知る手がかりです。

以下のとおり、選択肢は4つです。

  • Q番号設定 (青いボタン): カタログと突合せてウィキデータのどの項目と照合するか識別後、この欄にウィキデータの当該のページの Q番号を記入[1]
  • ウィキデータに未登録 (オレンジ色のボタン): ウィキデータに該当する項目がないと確証がある場合。
  • なし (赤いボタン): この項目に該当する正規のウィキデータ項目は成立しない場合。
  • スキップ (グレーのボタン): 疑わしいもしくは確証がない場合。次の項目へ進むのが最善策。

In case of doubt or uncertainty, or there is no matching Wikidata item but you do not want to create an item immediately, you may skip this go to the next element by clicking "Next entry".

If the entry is preliminarily matched, you have two choices:

  • Confirmed (green button): Confirms that the proposed entry is correct.
  • Remove (red button): Confirm that the proposed entry is incorrect. The entry will then become unmatched and may be matched to another (potentially new) item.

If there are multiple automatically-suggested matches, only the first of them is shown, and will be used if "Confirmed" is clicked. You may browse or select other matches using the link to the right of the entry name.

画面をさらに下にたどると英語版ウィキペディアへのお勧めリンクや、Wikidataの項目へのリンクがあります。適切な項目が存在する場合、右側のリンク (例えば「Q384941」) をクリックするだけで項目の一致を登録できます。提案された項目が適合しない場合でも、Google検索でウィキペディアやウィキソースのすべての言語版、またはウィキデータを調べることができます。

カタログの掲載内容とウィキデータの項目を結びつけるたび、システムによってウィキデータが自動更新されます。これは投稿記録欄に編集として表示されます。

(Mix'n'matchの掲載内容のなかにはプロパティが未設定のものがある可能性にご注意ください - そういうものを対象に作業する場合、項目の適合は先に保存され、後で必要に応じて更新されます)

手動モード (手動)

 
手動モードのサンプル

手動モードの場合は、利用者が選択したカタログの掲載内容が50件、一覧表示されます。1行目に項目名と説明 (利用可能な場合) が表示されます。各カードごとにアイテムの状態が色別で示されます。

  • You click a specific category (e.g. "Unmatched") in a catalog page - all entries in this category will be shown with fifty entries per page.
  • You browse a search result page.

Formerly it is known as manual mode and it may show fifty entries among all categories; this option was removed.

On the first line of the list, you will see the name and (where available) the description of the entry. Each card will also show the status of the entities.

手動で認証が必要な項目 (赤色)

照合が提案されない項目は2行目に自動検索リンクとしてウィキペディア、ウィキデータもしくはGoogle (検索対象を前者2件に限定) の3件と、項目の新規作成のリンクが表示されます。右側の列には、次の3つの選択肢があります。

  1. Q番号設定 (緑色のリンク):これをクリックするとウィキデータの項目番号の入力用ダイアログボックスが表示されます (項目番号の先頭にQがあってもなくてもかまいません)。
  2. 新規項目 (赤リンク): これをクリックすると新規の ウィキデータ項目を登録し、自動的にカタログの台帳番号、項目名と説明 (存在する場合) を記入します。
  3. なし (黄色いリンク): これをクリックするとその項目をウィキデータに含めてはいけない ことを示し、項目を廃止します。

上記3件のどの場合も、どれかを選択するとリンクの色が赤から緑に変わります。もしウィキデータの項目番号を入力した場合は、システムが対応するウィキデータの入力を WiDaR 経由で更新し、その流れはゲームモードと同様です。

自動的に組み合わせた要素 (斜体)

自動的に提案された照合の場合、2行目にウィキデータへのリンクと、自動生成したウィキデータの項目内容のまとめが配置されます。右列には次の3つの選択肢が現われます。

  1. 承認 (緑のリンク): 提案内容が正しいと確信がある場合は、これを押します。
  1. 除去 (赤のリンク): 内容がウィキデータ上に存在しない と確信したら、これをクリックします (将来の追加は妥当という可能性があります)。

Sometimes, a list of alternative matches is available.

前述のとおり利用者が照合を確認すると、システムが WiDaR 経由でウィキデータに必要な編集を行います。

手動で認証した要素 (緑色)

すでに照合済みの項目は、2行目にウィキデータへのリンクと自動生成したウィキデータの登録内容のまとめを配置します。

右側の列に項目を作成した利用者の名前と並んで、赤字で「一致を削除」リンクが表示されます。このリンクは他の人が作成した組み合わせが誤りだと確信する場合に限定して使用します。適切に結合したら細部までそのままにして、次に進みます。

一致するとウィキデータの項目が更新され、一致を削除すると (現状では) 更新されない点に注意してください。項目の一致を削除する場合のお勧めは、そのウィキデータ項目を新しいタブで開きプロパティも削除すること - それ以外の場合は将来的に mix'n'match に再登場する可能性があります。

新規作成の候補

各種カタログにはウィキデータに (まだ) 未登録の掲載内容が多数あります。なかにはウィキデータ項目の条件に適合しないものもあるものの、複数のカタログに掲載され外部の典拠もあり、「特筆性」の後付があるものもあります。新規項目作成候補用ツールCreation candidatesを使うと、複数 (最低3件) のカタログで同名の掲載内容があるのにウィキデータと一致しない項目が検出できます。

 
新規項目の候補のサンプル。

掲載内容一覧には通常の検索オプションが設定され、既にウィキデータに登録された項目と重複しないよう配慮されています。するとラベル名 (英語) が自動入力され、ウィキデータの新規項目を登録できます。その後、Set Q (Q番号設定) を使うとその新規項目と適合する掲載内容を照合できます。またそのラベル名でコモンズを検索してください。その人物の画像がすでに登録されている場合があります!

注意点: これらの掲載内容に同名が記述してあるという理由だけで、すべてが同じエンティティを参照するわけではありません。個々のカタログを慎重に検証してください!

照合のコツ

掲載内容をウィキデータの項目と照合するには、次のヒントに留意します。

  • 推測はだめ: 推測が混じるとデータにエラーが発生します。疑わしい場合は、カタログ項目からリンクをたどり項目の下部に記されたその他のカタログを参照するか、または他の情報 (座標位置など) を確認します。掲載内容との照合はいつでも中断し、他の人に作業を代わってもらうことができますし、もっと知識のある分野の別のカタログの照合に移行することもできます。
  • 新規項目の作成は大胆に: もし概念が異なるなら、新規項目を作成してください。照合が終わってから重複項目を結合するほうが、1件の項目を2件にわけるよりも数段も手間がかからないからです。たとえば、特定の都市にある「世界遺産」は多くの場合、市域全体が指定範囲には当該しないため、項目を新規に作成する必要があります。
  • 曖昧さ回避項目と照合しない: ウィキデータには、ウィキペディアの曖昧さ回避ページの項目が登録されています。リンク集として機能するためであり、照合に適した概念ではありません。たとえばBambaia (Q4853316)とは照合してはいけないし、Agostino Busti (Q395600)は照合の対象です。
  • 曖昧さ回避の項目と照合しない:一部の典拠データベースには曖昧さ回避または別名ページがあります。
    • 例えば以前、RKD(オランダ国立美術研究所)美術家カタログの「Bambaia」(バンバイア) の項目はウィキデータに誤ってマッピングされていました。(現在は修正済み、RKD BambaiaRKD Augustino Bustiにリダイレクト。)
    • 統合典拠ファイル (GND) の「未識別の名称」と照合しない
  • 自動照合を確認する: 多くの場合、自動照合は性格ですが、同名の項目間で混乱が発生する可能性はあります。
  • 「なし」という状態とはどんな条件でもウィキデータに掲載できない掲載内容、もしくは同じカタログに重複する項目があることを示します。
  • Use the 'jobs' option: The 'action' drop-down menu on any catalogue has a 'jobs' option. This gives you a list of tasks that will help with matching. For example, 'auxiliary matcher' will check the dataset for additional identifiers such as VIAF IDs and check them against existing records in Wikidata. If the automatching process has thrown up a lot of low-quality matches, there is the option to 'purge automatches'.

カタログリストの並べ替え

カタログリストは既定ではABC順に並んでいます。sort_mode パラメータを使い、キーワードを1件以上入れると並べ方が変わります。

  • sort_mode=groups によりカタログを種別・主題ごとにグループ分けし、グループは点数の多い順に、同一グループ内はABC順に並べます。照合が完了したカタログは、一覧の末尾にまとめます。
  • sort_mode=groups,by_easiest は上記と働きが同様で、処理は「最も簡単」 (#auto-matched+2*#unmatched) 。
  • sort_mode=by_easiest,no_complete はグループ化をしないで並べ替えのみ実施することから処理が「最も簡単」に終わり、作業が完了したカタログは非表示にします。(既定で「最も簡単」に指定)
  • sort_mode=groups,complete_inline はグループ化をして、作業を完了したカタログはそれぞれの主題ごとに分類します。

もし使い慣れたカタログの名前が「載っていない」、あるいは分類先が間違っている場合は、Magnus Manske (会話) にご一報ください。

新しいカタログを作成

新規カタログを作成し、対応関係の候補一覧 (表組みソフトから転写するのが最適) もしくはスクリプトの作成によって、対応関係の候補を自動的に取得することができます。あるいはまた、Magnus Manske (会話) に依頼して、特定のカタログのインポートをしてもらいます。

コツ

  • ウィキデータのプロパティ欄 (Wikidata property) は外部識別子に対応するプロパティがある場合に使います。入力内容の推薦はd:Wikidata:Property proposalで協議してください。
  • 項目の説明欄 (Entry description) は多くの人がカタログを照合する役に立つよう、できるだけ細かい説明を書き込むと、やがては一致エラーを減らしてデータの品質向上に役立ちます。
  • You can add aliases to items to help with the matching process. To import aliases, go to the catalogue and use the drop down 'action' menu in the top right. The 'aliases' option takes you to a page where you can import alternative labels for entries in the mix'n'match dataset. It will need to be in a tab separated format, and will use the dataset's external IDs for matching.

Managing catalogs

There is a catalog editor, accessible at mix-n-match/#/catalog_editor/<id> for the catalog creator and a subset of users (“catalog editors”). There it is possible to change some of the catalog properties (name, description, URL, type, language and Wikidata property) and to disable a catalog.

Scraper-based catalogs can be updated by following the catalog creation process, and entering an existing ”Catalog ID”.

参考文献

  1. 接頭辞Qのあるなしは問わず、「Q123」「123」のどちらでも記入できます。またQ番号さえ正しければ、カッコやカンマなど他の文字を入力しても正しく処理します。

外部リンク