抽象的なウィキペディア/更新情報/2021年05月06日
◀ | 抽象的なウィキペディアの更新情報 | ▶ |
- 抽象ウィキペディアからウィキデータの辞書編纂データへのミッシングリンク。
2018年にウィキデータは辞書的知識を収集するプロジェクトを開始しました。 それ以来、数十万の語彙素が作成され、今年、Wikimedia Deutschlandがウィキデータでの辞書的知識の作成、メンテナンスをより簡単にするツールを開発しています。
ウィキデータの語彙エクステンションは、抽象ウィキペディアとなる目標を念頭に開発されましたが、コミュニティでの最近の議論は、この2つの部分の間の可能な関係をまだ明確になっていないことを私に示しました。 今日は、抽象ウィキペディアとウィキデータの語彙データをどのように連携させるかについて、いくつかのアイデアを紹介したいと思います。
辞書を編纂するには、主に2つの方法があります。「語彙」や「単語」で項目を整理し、その意味を記述する方法(これは意味論的アプローチと呼ばれます)と、「語義」や「意味」で項目を整理する方法(これは名義論的アプローチと呼ばれます)です。 ウィキデータでは、意図的に意味論的アプローチを採用しています。ウィキデータのエントリは語彙素(Lexemes)と呼ばれ、投稿者は語彙素に語義(Senses)と語形(Forms)を追加することができます。 語義は、語彙素が定常的に呼び起こすさまざまな意味を表し、語形は、語彙素が自然言語テキストで、例えば正しい文法上の数、格、時制などに合わせて表現される様々な様式です。 語彙素の“mouse”(L1119)には、小さな齧歯動物、コンピューター入力デバイス用の2つの語義(Senses)、および“mouse”と“mice”の2つの語形(forms)があります。 多言語名義論的共同辞書の例としては、OmegaWikiを見ることができます。それは、主に(現在51,000以上の)定義された意味と、それらが異なる言語でどのように表現されているかを中心にまとめられています。
ウィキデータが意味論的アプローチを選択した理由は、クラウドソーシングされた共同プロジェクトにおいてよりシンプルであり、論争になる可能性も少ないという観察に基づいています。 あるコーパスで使われている単語のリストを集めるのは、同じコーパスで言及されているすべての意味のリストを集めるよりもはるかに簡単です。 そして、それは「より単純」ですが、それでも些細なことではありません。 私たちはさらに各語彙素の語義のリストを収集し、これらの語義間の関係(ある言語の2つの語彙素が同じ語義を持つかどうか、語義がウィキデータの膨大なアイテムカタログとどのように関連しているか、異なる言語の語義が互いにどのように関連しているか)を記述したいと考えています。 これらは全て、ウィキデータのコミュニティがまだ取り組んでいる非常に難しい質問です(Making senseのエッセイも参照)。
例を見てみましょう。
“スタブスはおそらく世界史上最年少の市長の一人でした。 彼は生後3か月と6日でアラスカ州タルキートナの市長になり、ほぼ4年前に亡くなるまでその地位にありました。 また、スタッブスはネコでした。”
その最後の文“スタブスはネコでした”を表現したいのであれば、 cat(ネコ)の意味を表現できなければなりません。(スモールキャピタルの意味において、ここでは、語彙レベルに完全に焦点を当て、文法的および慣用的な問題については議論しません。それを別の日に残しておきます。) 抽象的な内容においてネコの概念をどのように参照しますか? どのようにして英語で“cat”(L7-F4)の語形に最終的になるのでしょう? フランス語で“chat”(L511-F4)の語形になる? そしてドイツ語で“Kater” (L303326-F1)の語形になる?
これらの3つの単語は一般的に同じ意味を持たないことに注意してください。 英語のcatはオスネコもメスネコも同じように指します。フランス語の単語はネコを一般的に指すことができます、例えばスタッブスの性別がわからない場合、単語がオスとなりますが、メスネコは通常「chatte」という言葉を使って参照されます。 一方、ドイツ語では、オスネコのみを指すかもしれません。 スタッブスがオスかメスかわからない場合、ドイツ語では“Katze”という単語を代わりに使う必要がありますが、フランス語では、上述のように“chat”を使うことになります。 英語にはオスネコを表す言葉、“tom”や“tomcat”もありますが、これらは頻繁に使用されません。 Webで“Stubbs is a cat”を検索すると、10,000以上のヒットが返ってきますが、“Stubbs is a tom”や“Stubbs is a tomcat”でのヒットは1つもありません。
比べてみると、宇宙で初の唯一のネコのフェリセット(Félicette)の場合、記事ではフランス語で“chatte”、ドイツ語で“Katze”という言葉が実際に使われています。
ここでは、かなり密接に関連する3つの言語について話し、かなり単純な名詞について話しています。 これはとても単純なケースであるはずで、それでもそうなっていません。 より複雑な概念(例えば、異なる人種の居住地や、腕と手、色の用語などの人間の体の部分を異なる言語で概念化する方法)についての名詞、あるいは動詞、形容詞について話すとき、急激にはるかに複雑になります。 抽象ウィキペディアで使用したい全ての単語がそれらの意味を揃えるおく必要がある場合、クリティカルパスに非常に難しいタスクとなるでしょう。 だから抽象ウィキペディアが名義論的アプローチをすることは確かに有用ですが(意味の包括的なカタログを持つことはどんなに素晴らしいことでしょう!)、そのアプローチは難しすぎると見なされ、代わりに意味論的アプローチが選択されました。
幸いなことに、意味のカタログは必要ありません。 それを避ける方法は、抽象ウィキペディアがテキストを生成するだけが必要で、それを解析したり理解したりする必要がないためです。 これにより、各言語ごとに、正しい単語(または他の語彙表現)を選択するためにレンダラを使用するコンストラクタを使用することができます。 たとえば、動物の種類、品種、色、成体かどうか、去勢してるか、性別、数など、いくつかの選択的追加情報を取得できるコンストラクターを作成できます。 これらの情報のそれぞれについて、その情報をレンダリングで表現する必要があるかどうか、またはこの情報が随意なもので無視できるかどうか、したがってそれらのレンダラーが最も適切な単語を選択するために利用できるものをマークできます。 これはコミュニティにそれを行う方法を述べているのではなく、意味のカタログに依存することを回避する可能性のある1つのアプローチを大まかに述べただけであることに注意してください。
各言語レンダラは、必要な情報を使って正しい単語を選択することができます。 言語が性別を表現することを志向する場合(ドイツ語など)はそうすることができますし、そうでない言語(英語など)はそうすることができます。 ある言語で、ネコの年齢が単語の選択にとって重要である場合、それを調べることができます。 動物の色が重要である場合(ドイツ語の馬の場合など)、それぞれのレンダラーはその情報を使用できます。 必要な情報が欠けている場合は、寄稿者が記入できるようにこれをメンテナンスキューに追加することができます。 言語に単語がない場合は、例えば ドイツ語の”ラッペン”(Rappen)に対し ”黒い馬”あるいは ”オスの子猫”などのフレーズ、 ”動物”や ”ペット”のようなあまり具体的でない単語といった 異なる名詞句を選択できます。
しかし、ここでの重要な設計上の特徴は、異なる言語間での単語の意味の調整する上で、確認し合意する必要がないことです。 私たちが望むことを達成するために、意味のカタログは必要ありません。
さて、そのような意味のカタログを持つ他の多くの使用例があります。 それは非常に貴重なリソースになるでしょう。 そして、そのようなカタログがなくても、ウィキデータの語義と項目をつなぐステートメントは、レンダラーの作成と保守に非常に有用ですが、ウィキペディアの自然なテキストを作成時にこれらを使用する必要はありません。
上述のように、この提案は決まったものではありません。 レンダラをどのように実装するか、どんな情報を使用するかを決めるのは、コミュニティの判断次第です。 ここでは、多くの異なる言語間で単語を整列させる意味についての総合的なカタログ、(貴重であるが作成が非常に難しい)リソースの有用性の妨げとならないアーキテクチャをおおまかに述べています。