WissensWert 2011/49-Open-Access-Medienimporter für Wikimedia Commons

49 - Open-Access-Medienimporter für Wikimedia Commons

Bienen vertreiben eine Hornisse. Ein Video aus dem Anhang eines Artikels in der Open-Access-Zeitschrift PLoS ONE. In diesem Projekt geht es darum, solche frei lizensierten Multimedia-Dateien via Wikimedia Commons nachnutzbar zu machen.
English summary
Dieses Projekt ist eines der fünf Gewinner des Wissenswert-Wettbewerbs 2011.
Der Bot ist seit Sommer 2012 aktiv auf Wikimedia Commons.


Das Projekt edit

Titel der Idee in 140 Zeichen edit

Open-Access-Medienimporter für Wikimedia Commons

Drei Tags (Schlagworte), die die Schwerpunkte der Idee beschreiben edit

Open Access, Multimedia, Wikimedia Commons

Kurzbeschreibung der Idee und deren Beitrag zur Förderung Freien Wissens edit

Ein stetig wachsender Anteil wissenschaftlicher Artikel wird unter einer CC BY-Lizenz veröffentlicht, welche eine Nachnutzung der Materialien auf Wikimedia-Projekten zulässt. Viele dieser Artikel beinhalten Abbildungen oder Multimedia-Dateien, die sich zur Illustration enzyklopädischer Inhalte eignen. Bisher wird davon selten Gebrauch gemacht. In diesem Projekt soll daher Software entwickelt werden, welche die Artikel in Open-Access-Zeitschriften systematisch nach Multimedia-Dateien durchsucht, diese dann herunterlädt, in freie Formate konvertiert und auf Wikimedia Commons hochlädt.

Beteiligte Organisationen oder Personen edit

- Universität Regensburg, Lehrstuhl für Medieninformatik (Raphael Wimmer), beratend, techn. Umsetzung
- Nils Dagsson Moskopp, Entwickler, techn. Umsetzung

Ziele und Zielgruppe des Projektes edit

Welches Ziel soll mit der Idee erreicht werden? edit

Ziel ist es, Ton- und Bilddateien aus wissenschaftlichen Open-Access-Veröffentlichungen systematisch auf Wikimedia Commons hochzuladen. Warum? Weil sie dort einfacher gefunden, in den Kontext bereits vorhandener Materialien gestellt und in neuen Kontexten wiederverwendet werden können als an ihrem ursprünglichem Platz, typischerweise dem Anhang zu wissenschaftlichen Artikeln.

Wie lässt sich messen, ob dieses Ziel erreicht wird? edit

- Die Anzahl der auf Wikimedia Commons publizierten Mediendateien lässt sich ermitteln. Auch die Anzahl der in einer Open-Access-Zeitschrift publizierten Mediendateien lässt sich mit Suchanfragen und/oder einem Web-Crawler relativ genau ermitteln (Beispiel für Videos in PLoS-Zeitschriften). Dadurch können wir messen, welchen Prozentsatz an Videos wir schon transferiert haben, d.h. wie weit das Projekt fortgeschritten ist.
- Anhand der Downloads und Verlinkung der auf Wikimedia Commons publizierten Videos können wir auf Akzeptanz und Verwendung schließen.
- Wenn die Zeitschriften - wie bei PLoS üblich - ihre Zugriffsstatistiken öffentlich machen, können wir auch untersuchen, ob ein Video auf Wikimedia Commons öfter verlinkt oder verwendet wurde, als das gleiche Video auf der Seite der Zeitschrift. Dies ist vermutlich die wichtigste Kennzahl für den Erfolg dieses Projekts und für eventuelle Nachfolgeprojekte.

Zielgruppe des Projektes edit

Nutzer von Wikimedia Commons (direkt, via ein Wikimedia-Projekt oder InstantCommons): insbesondere Medien, Wissenschaftler, Lehrer, Studenten.

Wie wird die Zielgruppe erreicht? edit

Primärer Kommunikationskanal werden die Kategorien auf Wikimedia Commons sein, über welche die verschiedenen Medien in Beziehung gesetzt werden. Der Fortgang der Entwicklungsarbeit kann auf GitHub beobachtet werden und wird durch regelmäßige Blog-Einträge begleitet. Darüberhinaus werde ich im Dezember im Rahmen des "Wikimedian in Residence on Open Science"-Projektes ein Pilotprojekt "Open Access File of the Day" starten und über den Projektblog sowie Mailinglisten ankündigen. Sobald ausreichend Multimedia-Materialien aus Open-Access-Quellen auf Wikimedia Commons vorliegen, werden diese unter "Open Access Media of the Day" mit einbezogen.

Lässt sich die Idee auch von anderen Zielgruppen, Orten, Projekten nutzen? Wenn ja, wie und von wem? edit

Jeder kann den Code nutzen und für ähnliche Zwecke (also z.B. das systematische Hochladen von Multimedia-Dateien aus anderen offenen Archiven) adaptieren.

Umsetzung und Nachhaltigkeit des Projektes edit

Welche Tools, Technologien oder Hilfsmittel werden für die Umsetzung benötigt edit

Der Open-Access-Medienimporter für Wikimedia Commons ist modular aufgebaut. Dies erleichtert es, neue Medientypen, Ressourcen oder Ausgabeformate hinzuzufügen. Im Allgemeinen holt sich jede Komponente ein neues Arbeitspaket aus einer Warteschlange und legt die bearbeiteten Daten in die Warteschlange der nächsten Komponente. In der Regel laufen alle Komponenten auf dem gleichen Server.
- Der Crawler/ Scraper durchsucht eine Liste an Open-Access-Ressourcen nach neuen Artikeln mit angehängten Mediendateien (Video, evtl. Audio). Dies geschieht entweder über eine Such-API (falls vorhanden, z.B. bei PLoS) oder eine lokale Suche (Beispiel PLoS) oder Google (Beispiel: PLoS ONE). Anschließend extrahiert er für jeden gefundenen Artikel die URLs der Mediendateien sowie deren Metadaten (Urheber, Beschreibung, Lizenz, Original-Artikel, etc.).
- Der Downloader lädt die Mediendateien herunter und speichert sie zusammen mit den Metadaten.
- Der Transcoder konvertiert die Mediendateien in ein offenes Format (Ogg Theora, Ogg Vorbis) und fügt ggf. die Metadaten in die Mediendatei ein.
- Das Review-Tool erlaubt es dem Benutzer, Bild- und Tonqualität, Lizenz und Metadaten einer Datei zu überprüfen und zu korrigieren, bevor diese zur Verwendung freigegeben wird.
- Der Uploader lädt die Mediendateien mit Beschreibung und Kategorien auf Wikimedia Commons hoch.
- Die Konfiguration der Komponenten erfolgt mittels einer geschützten Wiki-Seite. Dies ermöglicht es u.a. auch Nicht-Programmierern, neue Ressourcen hinzuzufügen.
Alle Komponenten überprüfen vor der Verarbeitung einer Mediendatei, ob diese schon auf Wikimedia Commons verfügbar ist. Ist dies der Fall, wird die Verarbeitung abgebrochen.

Wird die Idee weiterleben, nachdem die Förderphase beendet ist? Wie nachhaltig ist das Projekt? edit

- Das Hauptergebnis, die Mediendateien, wird auch nach Projektende auf Wikimedia Commons verfügbar sein.
- Wenn möglich, soll der Importer nach Projektende weiter auf dem Wikimedia-Toolserver laufen und neue Multimedia-Dateien importieren.
- Sämtlicher Code ist frei verfügbar, so dass der Importer auch auf anderen Servern laufen kann.
- Der Code kann auch modifiziert und für andere Projekte verwendet werden.
- Der Importer kann auch nach längerer Zeit der Inaktivität gestartet werden und sammelt dann alle seit dem letzten Lauf neu hinzugekommenen Medien-Dateien.

Alle im Rahmen der Idee erstellen Inhalte stehen unter einer Freien Lizenz. Wie wird diese Lizenzierung umgesetzt, welche Lizenzen werden verwendet? edit

Das Projekt hat nicht die Erstellung von Inhalten zum Ziel, sondern den Import freier Inhalte aus Open-Access-Artikeln. Dabei beschränken wir uns zunächste auf Inhalte unter CC BY. Materialien wie Blog-Posts und Präsentationen werden unter CC0 veröffentlicht. Die im Rahmen des Projektes entstehende Software wird auf GitHub veröffentlicht und unter die GNU General Public License gestellt.

Lässt sich das Projekt innerhalb von sechs Monaten umsetzen? Wenn nein, welche Meilensteine werden in dieser Zeit abgeschlossen sein? edit

Ja.

Erwartest du Unterstützung (über die beantragten Mittel hinaus) von Wikimedia Deutschland während der Umsetzung deiner Idee? Wenn ja, in welcher Form? edit

Wenn der Importer stabil läuft, beabsichtigen wir, ihn auf den Toolserver zu überführen und dort weiter zu betreiben. Eventuell wird dafür in geringem Umfang technische Unterstützung seitens des Toolserver-Teams benötigt.

Hast du Erfahrungen in ähnlichen Projekten? Wenn ja, welche? edit

Ich bin Wikimedian in Residence on Open Science und als solcher bereits an der Schnittstelle zwischen Wikimedia- und Open-Access-Communities tätig. Auch bin ich als Autor, Gutachter und Berater mit den Arbeitsabläufen in wissenschaftlichen Verlagen sehr gut vertraut.

Wofür würdest du die 2.000 Euro aus dem Publikumspreis einsetzen? (2 Sätze genügen) edit

Zwei Erweiterungen bieten sich an:
- Zusätzlich zu den Multimedia-Dateien aus Open-Access-Artikeln könnten auch die Abbildungen aus den Artikeln auf Wikimedia Commons hochgeladen werden.
- Das Tool könnte eine Zusatz-Komponente erhalten, die Wikipedia-Artikel (in verschiedenen Sprachen) vorschlägt, wozu die Dateien thematisch passen könnten.

Wie hast du von diesem Wettbewerb erfahren? edit

Blogbeitrag von Wikimedia Deutschland , Projektseite in der deutschsprachigen Wikipedia, Website von Wikimedia Deutschland, Mailingliste von Wikimedia Deutschland

Über den Einreicher edit

Name des Einreichers edit

Daniel Mietchen

Blog, Website, Wiki edit

Blog: http://www.science3point0.com/evomri
Webseite: http://evomri.net/
Wiki: http://meta.wikimedia.org/wiki/Wikimedian_in_Residence_on_Open_Science

Drei Sätze über den Einreicher edit

Ich bin Biophysiker und habe zur nichtinvasiven Bildgebung biologischer Materialien promoviert. Derzeit beschäftige mich hauptsächlich mit der Integration von Online-Plattformen - insbesondere Wikis - mit wissenschaftlichen Arbeitsabläufen. Open Access spielt dabei eine zentrale Rolle und steht auch im Mittelpunkt meines Projektes als Wikimedian in Residence on Open Science.

Budget und Projektplan edit

Wie viel wird die Umsetzung deiner Idee in etwa kosten? edit

4.016,00 €

Höhe der gewünschten Förderung edit

4.016,00 €

Publikumspreis edit

Stimme hier für den Publikumspreis und wähle dein Lieblingsprojekt!