Template:Model card ORES article quality/fr

Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data et ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Ce modèle utilise des données sur une révision pour prédire la probabilité que l'article soit d'une certaine évaluation de contenu


Motivation

edit

Cette carte modèle décrit un modèle pour prédire la qualité des articles de Wikipédia. Elle utilise des caractéristiques structurelles extraites de l'article pour étiqueter les articles de Wikipèdia avec un score de probabilité pour chaque classe de qualité de l'articles.

Les articles de Wikipédia vont de la qualité à la richesse, aux illustrations, aux articles entièrement référencés qui couvrent entièrement leur sujet et sont faciles à lire aux coups de phrase qui définissent le sujet de l'article mais ne fournissent pas beaucoup d'informations. Il est très utile de pouvoir distinguer de manière fiable entre ces extrêmes et les différentes étapes de qualité le long de ce spectre. Les éditeurs de Wikipédia ont développé des rubriques riches pour évaluer la qualité des articles de Wikipédie et évaluent constamment la qualité desarticles pour aider à coordonner le travail sur les wikis. Les éditors utilisent ces scores de qualité pour évaluer et prioriser leur travail. Les chercheurs utilisent ces score de qualité pour comprendre la dynamique du contenu. Les développeurs utilisent ce score de qualité comme filtres lors de la construction de systèmes de recommandations ou d'autres outils.

Wikipédia est en constante évolution, ce qui rend temps pris (et en grande partie impossible) pour les éditeurs de garder ces évaluations de qualité complètes et à jour. Un modèle de qualité automatique peut aider à combler ces lacunes en évaluant la qualité des articles qui ne sont pas évalués ou ont considérablement changé depuis leur dernière évaluation. Ce faisant, il peut fournir aux chercheurs et aux développeurs d'outils des données plus cohérentes et même potentiellement aider les édites à identifier les articles qui pourraient bénéficier d'une évaluation humaine.

Utilisateurs et utilisations

edit
Use this model for
  • analyses à haut niveau des tendances en matière de qualité des articles
  • filtrer / classer les articles dans les outils - par exemple, ne montrer que des articles de mauvaise qualité dans un système de recommandations
  • identifier des moyens potentiels d'améliorer les articles - par exemple en utilisant la fonction de valeur la plus faible du modèle comme recommandation
Don't use this model for
  • projets en dehors de la Wikipédia française
  • Nom de l'espace
Current uses

Ce modèle fait partie de l'ORES et est généralement accessible via API. Il est utilisé pour l'analyse de haut niveau de Wikipédia, la recherche sur la plateforme et d'autres tâches sur wiki.

Example API call:
{{{model_input}}}

Considérations éthiques, avertissements et recommandations

edit
  • Les données de source de ce modèle sont de plusieurs années - la dérive des données peut déformer les résultats actuels par rapport aux données de formation.
  • Le modèle ne tient pas actuellement compte de la qualité de l'écriture spécifique, donc un article long avec de nombreux mots faux serait enregistré comme de haute qualité.
  • Différentes wikis ont des schémas d'étiquetage différents - n'utilisez pas ce modèle en conjonction avec d'autres modèles pour effectuer une analyse interwiki.

Modèle

edit

Performance

edit

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Mise en œuvre

edit
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Les données

edit
Data pipeline
Les étiquettes ont été collectées à partir de jugements sur wiki de la qualité des articles, puis combinées avec des fonctionnalités de révision pour créer un ensemble de données source.
Training data
Les données du train ont été automatiquement séparées des données des essais en utilisant les fonctionnalités du référentiel de révision.
Test data
Les données de test ont été automatiquement et aléatoirement séparées des données du train en utilisant les fonctionnalités du référentiel de revscoring et conservées pendant le processus de formation.

Les licences

edit

Citation

edit

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_quality,
  title={ {{{language}}} {{{project}}} article quality model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_quality/fr }
}