WissensWert 2011/39-Automatische Erkennung von Qualitätsmängeln in nutzergenerierten Inhalten

39 - Automatische Erkennung von Qualitätsmängeln in nutzergenerierten Inhalten

Das Projekt

Titel der Idee in 140 Zeichen

Automatische Erkennung von Qualitätsmängeln in nutzergenerierten Inhalten

Drei Tags (Schlagworte), die die Schwerpunkte der Idee beschreiben

Qualitätssicherung, Erkennung von Qualitätsmängeln, Social-Tagging

Kurzbeschreibung der Idee und deren Beitrag zur Förderung Freien Wissens

Für den Nutzen und die Nachhaltigkeit von freiem Wissen ist Qualitätssicherung von großer Bedeutung, vor allem, wenn es sich, wie bei Wikipedia, um nutzergenerierte Inhalte handelt. Wikipedia-Nutzer haben die Möglichkeit, fehlerhafte Inhalte zu kennzeichnen, wenn sie einen Qualitätsmangel entdecken (Social-Tagging), um so Nutzer zu informieren, die die Kenntnisse haben, um den Mangel zu beheben. Wikipedias Größe und die sich ständig ändernden Inhalte machen eine manuelle Qualitätssicherung basierend auf Social-Tagging jedoch unmöglich. Unsere Idee ist, maschinelle Lernverfahren einzusetzen, um Qualitätsmängel automatisiert zu erkennen und den Tagging-Prozess zu automatisieren.

Beteiligte Organisationen oder Personen

Ansprechpartner: Maik Anderka

Arbeitsgruppe Web-Technologie & Informationssysteme
Fakultät Medien / Medieninformatik
Bauhaus-Universität Weimar
www.webis.de

Ziele und Zielgruppe des Projektes

Welches Ziel soll mit der Idee erreicht werden?

Ziel der Idee ist es, die existierenden Bestrebungen zur Qualitätssicherung in Wikipedia aktiv zu unterstützen, indem eine Software entwickelt wird, die Qualitätsmängel in Wikipedia automatisch erkennt. Konkrete Qualitätsmängel sind beispielsweise fehlende Verifizierbarkeit, fehlende Neutralität, schlechter Schreibstil, Inkonsistenz oder falsche Formatierungen. Die automatisierte Erkennung dieser Qualitätsmängel ist nach dem heutigen Stand der Technik theoretisch möglich, wurde allerdings bisher noch nicht realisiert.

Wie lässt sich messen, ob dieses Ziel erreicht wird?

Es wird gemessen, ob unsere Erkennungsverfahren in der Lage sind, diejenigen fehlerhaften Inhalte zu finden, die bereits von den Wikipedia-Nutzern gekennzeichnet wurden. Mit anderen Worten, wie gut sind die Erkennungsverfahren darin, die menschlichen Beurteilungen nachzuahmen? Um dies zu messen gibt es standardisierte statistische Maße.

Zielgruppe des Projektes

Die primäre Zielgruppe sind Wikipedia-Nutzer und speziell diejenigen Nutzer, die an WikiProjekten zur Qualitätssicherung beteiligt sind. Letztendlich profitieren alle Wikipedia-Leser von unserer Idee, da wir erwarten, dass unsere Erkennungsverfahren die allgemeine Qualität der Inhalte verbessern.

Wie wird die Zielgruppe erreicht?

Erreicht wird die Zielgruppe über Diskussionsseiten der jeweiligen WikiProjekte, über entsprechenden Wikimedia-Mailverteiler und per direktem Kontakt mit Wikipedia-Nutzer über deren Diskussionsseiten.

Lässt sich die Idee auch von anderen Zielgruppen, Orten, Projekten nutzen? Wenn ja, wie und von wem?

Ja, die Erkennungsverfahren lassen sich direkt auf alle Arten von nutzergenerierten Projekten anwenden, in denen Social-Tagging verwendet wird, um Qualitätsmängel zu kennzeichnen, z.B. Wikis, Blogs usw.

Umsetzung und Nachhaltigkeit des Projektes

Welche Tools, Technologien oder Hilfsmittel werden für die Umsetzung benötigt

Die benötigte Infrastruktur (Software und Hardware, insbesondere ein Computercluster zum verteilten Rechnen) und das entsprechende Know-how (maschinelles Lernen, Textanalyse, Umgang mit großen Datenmengen) sind in der Arbeitsgruppe Web-Technologie & Informationssysteme vorhanden und können im Projekt eingesetzt werden. Die Erkennungsverfahren sollen auf dem Wikimedia Toolserver implementiert werden, ein entsprechender Account ist bereits vorhanden.

Wird die Idee weiterleben, nachdem die Förderphase beendet ist? Wie nachhaltig ist das Projekt?

Ja, definitiv! Ziel ist es, einen erweiterbaren Softwareprototyp zu entwickeln, der autonom in Wikipedia agiert und auch in neu erstellten Inhalten Qualitätsmängel erkennt.

Alle im Rahmen der Idee erstellen Inhalte stehen unter einer Freien Lizenz. Wie wird diese Lizenzierung umgesetzt, welche Lizenz werden verwendet?

Der entsprechende Programmcode wird öffentlich zugänglich gemacht, z.B. über den Wikimedia Toolserver oder SourceForge.net (Open-Source-Software-Lizenz). Die entwickelten Erkennungsverfahren werden im Rahmen einer wissenschaftlichen Publikation veröffentlicht.

Bezüglich deiner Rückfrage, für die Software werden wir GPL verwenden. Inhalte im eigentlichen Sinne (z.B. Texte, Bilder usw.) werden ja nicht produziert. Die entwickelten Algorithmen (also die Erkennungsverfahren) sind im Quellcode der Software enthalten und daher durch die GPL abgedeckt. Wie bereits erwähnt wird der Quellcode öffentlich zugänglich gemacht.
Die geplante Publikation soll dazu dienen, die entwickelten Ideen, Verfahren und Resultate der wissenschaftlichen Gemeinschaft zugänglich zu machen

Lässt sich das Projekt innerhalb von sechs Monaten umsetzen? Wenn nein, welche Meilensteine werden in dieser Zeit abgeschlossen sein?

In den sechs Monaten lässt sich ein Prototyp erstellen der in der Lage sein wird, die 10-15 häufigsten Qualitätsmängel zu erkennen.

Erwartest du Unterstützung (über die beantragten Mittel hinaus) von Wikimedia Deutschland während der Umsetzung deiner Idee? Wenn ja, in welcher Form?

Nein, nicht nötig.

Hast du Erfahrungen in ähnlichen Projekten? Wenn ja, welche?

In der Arbeitsgruppe Web-Technologie & Informationssysteme wurden bereits theoretischen Grundlagen zur Qualitätsbestimmung von Texten entwickelt und auf internationalen Konferenzen publiziert (siehe http://www.webis.de/research/projects/wikipedia-quality).
Wir sind außerdem an einem internationalen Projekt beteiligt, das sich mit Qualitätsbestimmung von Webseiten beschäftigt (siehe http://wiqei.know-center.tugraz.at/wiqeiwiki).

Wofür würdest du die 2.000 Euro aus dem Publikumspreis einsetzen? (2 Sätze genügen)

Um die entwickelten Erkennungsverfahren zu erweitern, damit noch mehr Qualitätsmängel erkannt werden können und um die Erkennungsverfahren auf andere Sprachversionen von Wikipedia zu adaptieren.

Wie hast du von diesem Wettbewerb erfahren?

Website von Wikimedia Deutschland, Mailingliste von Wikimedia Deutschland, Freunde oder Bekannte

Über den Einreicher

Name des Einreichers

Maik Anderka

Blog, Website, Wiki

http://maik.anderka.com (zu meiner Person)
http://www.webis.de (Arbeitsgruppe Web-Technologie & Informationssysteme, Bauhaus-Universität Weimar)
http://www.webis.de/research/projects/wikipedia-quality (zum Projekt)

Drei Sätze über den Einreicher

Ich heiße Maik Anderka und arbeite seit 2007 als wissenschaftlicher Mitarbeiter in der Arbeitsgruppe Web-Technologie & Informationssysteme an der Bauhaus-Universität Weimar. Zuvor habe ich mein Studium an der Universität Paderborn mit einem Master in Informatik abgeschlossen. Meine Forschungsinteressen liegen in den Bereichen Data-Mining und maschinelles Lernen, konkret beschäftige ich mich mit automatischer Qualitätsbestimmung von Texten und semantischer Ähnlichkeitsanalyse.

Budget und Projektplan

Wie viel wird die Umsetzung deiner Idee in etwa kosten?

4.400,00 €

Höhe der gewünschten Förderung

4.400,00 €

Publikumspreis

Stimme hier für den Publikumspreis und wähle dein Lieblingsprojekt!