Template:Model card ORES article quality/pt

Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data, e ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Este modelo usa dados sobre uma revisão para prever a probabilidade de que o artigo seja de uma certa avaliação de conteúdo


Motivação

edit

Este modelo de cartão descreve um modelo para prever a qualidade dos artigos da Wikipédia. Ele usa características estruturais extraídas do artigo para rotular artigos da Wikipèdia com uma pontuação de probabilidade para cada classe de qualidade do artigo.

Os artigos da Wikipédia variam em qualidade, desde artigos ricos, bem ilustrados, com referências completas que cobrem completamente seu tópico e são fáceis de ler até estubes de frase única que definem o tópico do artigo, mas não oferecem muito mais informações. É muito útil ser capaz de distinguir com confiança entre esses extremos e os vários estágios de qualidade ao longo deste espectro. Os editores da Wikipédia desenvolveram rubricas ricas para avaliar a qualidade dos artigos da Wikipèdia e estão constantemente avaliando a qualidade do artigo para ajudar a coordenar o trabalho nas wikis. Os editors usam essas pontuações de qualidade para avaliar e priorizar seu trabalho. Os pesquisadores usam essas puntuações de Qualidade para entender a dinâmica do conteúdo. Os desenvolvedores usam essas notas de qualidade como filtros quando construem sistemas de recomendação ou outras ferramentas.

A Wikipédia está sempre mudando, o que torna demorado (e em grande parte impossível) para os editores manterem essas avaliações de qualidade completas e atualizadas. Um modelo de qualidade automático pode ajudar a preencher essas lacunas avaliando a qualidade de artigos que não foram avaliados ou mudaram substancialmente desde a última avaliação. Ao fazê-lo, pode fornecer aos pesquisadores e desenvolvedores de ferramentas dados mais consistentes e até mesmo potencialmente ajudar os editores a identificar artigos que se beneficiariam de uma avaliação humana.

Utilizadores e utilizações

edit
Use this model for
  • análises de alto nível das tendências da qualidade dos artigos
  • filtragem / classificação de artigos em ferramentas - por exemplo, apenas mostrar artigos de baixa qualidade em um sistema de recomendação
  • identificar possíveis formas de melhorar os artigos - por exemplo, utilizando a característica de menor valor do modelo como recomendação
Don't use this model for
Current uses

Este modelo é parte do ORES e geralmente acessível através da API. É usado para análise de alto nível da Wikipedia, pesquisa de plataforma e outras tarefas on-wiki.

Example API call:
{{{model_input}}}

Considerações éticas, avisos e recomendações

edit
  • Os dados de origem deste modelo têm vários anos - a deriva de dados pode distorcer os resultados atuais em relação aos dados de formação.
  • O modelo não tem atualmente em conta a qualidade da escrita específica, por isso um artigo longo com muitas palavras falsas seria registrado como de alta qualidade.
  • Diferentes wikis têm diferentes esquemas de rotulagem - não use este modelo em conjunto com outros modelos para realizar uma análise interwiki.

Modelo

edit

Performance

edit

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Implementação

edit
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Dados

edit
Data pipeline
Os rótulos foram coletados a partir de julgamentos sobre a qualidade do artigo na wiki, e depois unidos com recursos de revisão para criar um conjunto de dados fonte.
Training data
Os dados do trem foram automaticamente separados dos dados do ensaio utilizando a funcionalidade do repositório de revscoring.
Test data
Os dados de teste foram separados automaticamente e aleatoriamente dos dados do trem usando funcionalidades do repositório de revscoring e mantidos durante o processo de treinamento.

Licenças

edit

Citação

edit

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_quality,
  title={ {{{language}}} {{{project}}} article quality model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_quality/pt }
}