Template:Model card ORES article topic/cs
Model card | |
---|---|
This page is an on-wiki machine learning model card. | |
Model Information Hub | |
Model creator(s) | Aaron Halfaker (User:EpochFail) and Amir Sarabadani |
Model owner(s) | WMF Machine Learning Team (ml@wikimediafoundation.org) |
Model interface | Ores homepage |
Code | ORES Github, ORES training data, a ORES model binaries |
Uses PII | No |
In production? | Yes |
Which projects? | {{{language}}} {{{project}}} |
Tento model používá text článku k předpovědi pravděpodobnosti, že článek patří k souboru témat. | |
Motivace
editJak můžeme předvídat, v jakém obecném tématu je článek? Odpověď na tuto otázku je užitečná pro různé analýzy dynamiky Wikipedie. Je však obtížné ručně shrnout velmi různorodý řád článků Wikipedie do soudržných, konzistentních témat.
Tento model, který je součástí souboru modelů ORES, analyzuje článek, aby předpověděl jeho pravděpodobnost, že patří k souboru témat. Podobné modely (i když nemusí být nutně s stejnou úrovní výkonnosti nebo témata, jsou nasazeny v asi tucet dalších projektů.
Tento model může být užitečný pro analýzu dynamiky Wikipedie na vysoké úrovni (prehled stránek, kvalita článků, trendy editování) a filtrování článků.
Uživatelé a použití
edit- vysoké úrovně analýzy dynamiky Wikipedie, jako je vizualizace stránek, kvalita článků nebo trendy editování - např. Jak se dynamika vizualizací stránek liší mezi kategoriemi fyziky a biologie?
- filtrování na příslušné články - např. filtrování článků pouze na ty, které se týkají kategorie hudby.
- konečně stanoví, na jaký témat se článek týká
- automatické úpravy článků nebo témat bez toho, aby byl člověk v kruhu
Tento model je součástí ORES a je obecně přístupný prostřednictvím API. Používá se pro vysokou úroveň analýzy Wikipedie, výzkum platformy a další úkoly na wiki.
Example API call:{{{model_input}}}
Etické úvahy, upozornění a doporučení
edit- Tento model byl vyškozen na základě dat, které jsou nyní staré několik let (od poloviny roku 2020).
Tento model používá Word2vec jako výcvikovou funkci. Word2vec, stejně jako jiné přírodní jazykové začleňování, kóduje jazykové předsudky základních datových souborů - v rámci pohlaví, rasy, etnické příslušnosti, náboženství atd. Vzhledem k tomu, že Wikipedie zná předsudkové aspekty ve svém textu, může tento model kódovat a někdy reprodukovat tyto předsudkosti.
- Tento model má velmi variabilní výkonnost v různých tématách - pro pochopení výkonnosti mezi tématy se obraťte na níže uvedené testové statistiky.
Model
editVýkon
editTest data confusion matrix: {{{confusion_matrix}}}
Test data sample rates: {{{sample_rates}}}
Test data performance: {{{performance}}}
Provádění
edit{{{model_input}}}
Output:
{{{model_output}}}Údaje
editLicence
edit- Code: MIT license
- Model: MIT license
Citát
editCite this model card as:
@misc{
Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
title={ {{{language}}} {{{project}}} article topic model card },
author={ Triedman, Harold and Bazira, Kevin },
year={ 2023 },
url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/cs }
}