Template:Model card ORES article quality/sv

Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data, and ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Denna modell använder data om en revision för att förutsäga förmågan att artikeln är av en viss [es:WP:Content assessment]


Motivation

edit

Detta modellkort beskriver en modell för att förutsäga kvaliteten på Wikipedia-artiklar. Det använder strukturella egenskaper som extraheras från artikeln för att märka Wikipedia-artiklarna med en sannolikhetspoäng för varje artikelkvalitetsklass.

Wikipedia-artiklar sträcker sig i kvalitet från rika, välillustrerade, fullständigt refererade artiklar som helt täcker sitt ämne och är lätta att läsa till en mening som definierar ämnet för artikeln men inte erbjuder mycket mer information. Det är mycket användbart att kunna pålitligt skilja mellan dessa extrema och de olika stadierna av kvalitet längs detta spektrum. Wikipedia-redaktörer har utvecklat rika rubriker för hur man utvärderar kvaliteten på Wikipedia-artiklarna och utvärderar ständigt artikelkvaliteten för att hjälpa till att samordna arbete på wikis. Redaktörer använder dessa kvalitetskärmar för att utvärdera och prioritera sitt arbete. Forskare använder dessa kvalitetsskor för att förstå innehåddynamik. Utvecklare använder dessa kvalitetscorer som filter när de bygger rekommenderingssystem eller andra verktyg.

Wikipedia förändras alltid, vilket gör det tidskrävande (och i stort sett omöjligt) för redaktörer att hålla dessa kvalitetsbedömningar kompletta och uppdaterade. En automatisk kvalitetsmodell kan bidra till att fylla dessa luckor genom att utvärdera kvaliteten på artiklar som inte utvärderats eller har förändrats väsentligt sedan de senast utvärderades. På så sätt kan det ge forskare och verktygsutvecklare mer konsekventa data och även potentiellt hjälpa redaktörer att identifiera artiklar som skulle dra nytta av en mänsklig bedömning.

Användare och användningsområden

edit
Use this model for
  • analyser på hög nivå av utvecklingen av kvaliteten på artiklar
  • filtrera / rankera artiklar i verktyg - t.ex. endast visa lågkvalitativa artiklar i ett rekommenderingssystem
  • identifiera potentiella sätt att förbättra artiklar - t.ex. genom att använda den lägsta värdet i modellen som rekommendation
Don't use this model for
  • projekt utanför svensk Wikipedia
  • Wikipedia:Namespace
Current uses

Denna modell är en del av ORES och allmänt tillgänglig via API. Den används för högnivåanalys av Wikipedia, plattformsforskning och andra wiki-uppgifter.

Example API call:
{{{model_input}}}

Etiska överväganden, försiktighetsåtgärder och rekommendationer

edit
  • Kälddata för denna modell är flera år gamla - dataflödet kan ske från nuvarande utgångar i förhållande till utbildningsinformationerna.
  • Modellen tar för närvarande inte hänsyn till kvaliteten på den specifika skrivelsen, så en lång artikel med många falska ord skulle registreras som hög kvalitet.
  • Olika wiki har olika märkningssystem - använd inte denna modell i kombination med andra modeller för att genomföra en interwiki-analys.

Modell

edit

Utveckling

edit

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Utförande

edit
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Uppgifter

edit
Data pipeline
Etiketter samlades från artikelkvalitetsbedömningar på wiki, och sedan förenades med revisionfunktioner för att skapa en källa dataset.
Training data
Tågdata separerades automatiskt från testdata med hjälp av funktionalitet från revscoring-repository.
Test data
Testdata separerades automatiskt och slumpmässigt från tågdata med hjälp av funktionalitet från revscoring-repositoriet och hölls ut under träningsprocessen.

Licenser

edit

Citat

edit

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_quality,
  title={ {{{language}}} {{{project}}} article quality model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_quality/sv }
}