Abstrakte Wikipedia/Neuigkeiten/2021-07-29

Neuigkeiten von der Abstrakten Wikipedia

Abstrakte Beschreibungen.

Unser Ziel mit der Abstakten Wikipedia (Abstract Wikipedia) ist es jedem zu ermöglichen Inhalte in jeder Sprache zu verfassen, die dann in jeder Sprache gelesen werden können. Auf lange Sicht sind die Hauptinhalte, auf die wir abzielen, Wikipedia-Artikel, um allen gleichermaßen den Zugriff und den Beitrag zu unparteiischen, aktuellen, und umfassenden Enzyklopädischen Einträgen zu ermöglichen.

In den kommenden Monaten werden wir große Meilensteine auf unserem Weg überkommen. Heute möchte ich einen möglichen Meilenstein auf unserem Weg vorstellen: Abstrakte Beschreibungen für Wikidata.

Jedes Element in Wikidata hat eine Bezeichnung, eine kurze Beschreibung, und Aliase in jeder Sprache. Schauen wir uns nun zum Beispiel das Element Q836805 an. Im Englischen hat das Element die Bezeichnung “Chalmers University of Technology” und die Beschreibung “university in Gothenburg, Sweden”. Im Schwedischen sind das “Chalmers tekniska högskola” und “universitet i Göteborg, Sverige”. Das Ziel der Bezeichnung ist es ein allgemeiner Name für das Element zu sein, und sollte zusammen mit der Beschreibung das Element eindeutig in der Welt identifizieren. Das ist weshalb, obwohl mehrere Elemente die selbe Bezeichnung haben können, da mehrere Dinge in der Welt den selben Namen haben können, aber etwas unterschiedliches sein können, keine zwei Elemente sowohl die selbe Bezeichnung, als auch die selbe Beschreibung in einer gegebenen Sprache haben sollten. Die Aliase werden genutzt um die Sucherfahrung zu verbessern.

Die Bedeutung der Beschreibungen über Sprachen hinweg ist oftmals die selbe, und wenn sie es nicht ist, obwohl dies selten auch absichtlich passiert, ist es oftmals aus versehen. Bei über 94 Millionen Einträgen in Wikidata, und über 430 unterstützten Sprachen, bedeutet das, dass wir für eine perfekte Abdeckung 40 Milliarden Bezeichnungen und noch mal so viele Beschreibungen hätten. Und nicht nur die Erstellung dieser Bezeichnungen und Beschreibungen ist eine Menge Arbeit, sie müssen später auch gepflegt werden. Wenn es nicht genug Beitragende gibt, die die Qualität dieser überprüft, wäre es leider leicht Vandalismus einzureichen.

Die Wikidata-Gemeinschaft weiß schon lange über dieses Problem bescheid, und hat großen Aufwand betrieben um es zu beheben. Werkzeuge wie AutoDesc von Magnus Manske und Bots wie Edoderoobot, Mr.Ibrahembot, MatSuBot (Diese Bots wurden durch einen Klick auf “Zufälliger Eintrag” und einem Blick in die Änderungshistorie ausgewählt) und viele andere haben an einer größeren Abdeckung gearbeitet. Und es zeigt sich: Diese Bots zielen oft auf Beschreibungen ab und, obwohl nur 6 Sprachen "Bezeichnungen" für mehr als 10% der Wikidata-Einträge haben, haben ganze 64 Sprachen eine Abdeckung von über 10% für "Beschreibungen"! Heute haben wir weit über 2 Milliarden Beschreibungen in Wikidata.

Diese Bots erstellen oftmals Beschreibungen aus den existierenden Aussagen in Einträgen. Und das ist auch gut so. Aber es gibt weder einen leichten Weg einen Fehler über Sprachen hinweg zu korrigieren, noch einen Weg sicherzustellen, dass sich kein Vandalismus eingeschlichen hat. Außerdem geben Bots eine sehr große Verantwortung an eine sehr kleine Gruppe von Bot-Betreibern. Unser Ziel ist es diese Verantwortung wieder zu verteilen und mehr Leuten zu ermöglichen Beizutragen.

Beschreibungen auf Wikidata sind normalerweise Nomen-Sätze, was etwas ist, was wir so oder so in der Abstrakten Wikipedia unterstützen müssen. Wir wollen anfangen drüber nachzudenken, wie wir diese Funktion implementieren, und dann von dort abzuleiten was in Wikifunctions und in Wikidata passieren muss. Diese Arbeit muss in enger Zusammenarbeit mit dem Wikidata-Team und den Gemeinschaften von Wikidata und Wikifunctions passieren. Dies wird einen Weg repräsentieren unsere Möglichkeiten hochzufahren in Richtung einer großen Vision der Abstakten Wikipedia. Wir hoffen dieses Ziel in 2022 zu erreichen.

Wir wissen allerdings noch nicht genau wie wir das schaffen werden. Hier sind ein paar Ideen, aber ich lade Sie recht herzlich ein, damit wir alle gemeinsam an der Struktur für abstrakte Beschreibungen arbeiten können:

Es muss möglich sein bestehende Beschreibungen für eine gegebene Sprache zu überschreiben
Es muss möglich sein eine lokale Überschreibung für eine gegebene Sprache zurückzuziehen
Die Paarung von Bezeichnung und Beschreibung muss weiterhin eindeutig sein
Es wäre super wenn die Implementation keinen großen Aufwand erfordert
Das Ziel ist es nicht automatische Beschreibungen, sondern abstrakte Beschreibungen zu erstellen

Der letzte Punkt sehr fein: Eine automatische Beschreibung ist eine Beschreibung, die aus den gegebenen Aussagen eines Eintrags automatisch erstellt wird. Das ist eine wertvolle und sehr schwere Aufgabe. Das oben genannte AutoDesc zum Beispiel fängt die Englische Beschreibung für Douglas Adams wie folgt an: “British playwright, screenwriter, novelist, children's writer, science fiction writer, comedian, and writer (1952–2001) ♂; member of Footlights and Groucho Club; child of Christopher Douglas Adams and Janet Adams; spouse of Jane Belson”. Die aktuelle manuelle englische Beschreibung für Eintrag Q42 ist viel prägnanter: “English writer and humorist”. There can be many subtle decisions and editorial judgements to be made in order to create the description for a given Item, and I think we should be working on this — but later.

Instead, we want to support abstract descriptions: a description, manually created, but instead of being written in a specific natural language, it is encoded in the abstract notation of Wikifunctions and then we use the renderers to generate the natural languages text. This allows the community to retain direct control over the content of a description.

Here are a few ideas to kick off the conversation:

We introduce a new language code, qqz. That code is in the range reserved for local use, and is similar to the other dummy language codes in MediaWiki, qqq and qqx. Wikidata is to support the qqz language code for descriptions.
The content of the qqz description is an abstract content. Technically we could store it in some string notation such as “Z12367(Q3918, Q25287, Q34)”. Or we could store the JSON ZObject.
The abstract description would be edited using the same Vue components we develop for Wikifunctions for editing abstract content.
The abstract description is a fallback for languages without a description. It can be overwritten by providing a description in that language.
Every time the renderer function or the underlying lexicographic data changes, we also need to retrigger the relevant generations.
One question is whether we should store the generated description in the Item, and if so, how to change the data model in order to mark the description as generated from the abstract description.
We also need to figure out how to report changes to everyone who is interested in tracking them. If we store the generated description as proposed above, we can piggyback on the current system.

All of these are just ideas for discussion. Some of the major questions are whether to store all the generated descriptions in the Item or not, how to represent that in the edit history of the Item, how to design the caching and retriggering of the generated descriptions, etc.

What would that look like?

Let’s take a look at an oversimplified example. The English description for Chalmers is “university in Gothenburg, Sweden”. That seems like a reasonably simple case that could easily be templated into abstract content say of the form “Z12367(Q3918, Q25287, Q34)”, where Z12367 (that ZID is made-up) represents the abstract content saying in English “(institution) in (city), (country)”, Q3918 the QID for university, Q25287 the QID for Gothenburg, and Q34 the QID for Sweden. (In reality, this template is actually nowhere near as simple as it looks like - we will discuss this more in an upcoming weekly newsletter. For now, let’s assume this to be so simple.)

Renderers would then take this abstract content and for each language generate the description, in this case “university in Gothenburg, Sweden” for English, or “sveučilište u Göteborgu u Švedskoj” in Croatian. Since there is already an English description, we wouldn’t store nor actually generate the text, but in Croatian we would generate it, store it, and mark it as a generated description.

We think of this as a good milestone on our path to Abstract Wikipedia, with a directly useful outcome. What are your thoughts? Join us in discussing this idea on the talk page.

Status showing how testers and implementations work together

In other news, Lindsay has created a video of a new feature: how Testers and Implementations work together to show whether the tests pass.

The video shows how she is changing the implementation and re-running the testers several times. Testers will be a main component in ensuring the quality of Wikifunctions.

The next opportunity to meet us and ask us questions will be at Wikimania. On 14 August, at 17:00 UTC, we will host a 1.5 hour session on Wikifunctions and Abstract Wikipedia. This year, Wikimania will be an entirely virtual event and registration is free. Bring your questions and discussions to Wikimania 2021.

Next week, we are skipping the weekly update.