Template:Model card ORES article topic/hu

Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data és ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Ez a modell a cikk szövegét használja a cikk egy sor témához való valószínûségének előrejelzéséhez .


Motiváció

edit

Hogyan tudjuk megjósolni, hogy melyik általános témában van egy cikk? A kérdésre való válasz hasznos a Wikipédia dinamikájának különböző elemzéseihez. Azonban nehéz a Wikipédia cikkek nagyon különböző sorát koherens, következetes témákba csoportosítani kézzel.

Ez a modell, amely az ORES modellcsomag része, elemzi egy cikket, hogy megjósolja a témák egy csoportjához való tartozásának valószínűségét. Hasonló modelleket (még nem feltétlenül ugyanazzal a teljesítményszintgel vagy témákkal, de több tucat más projektben is alkalmaznak.

Ez a modell hasznos lehet a Wikipédia dinamikai magas szintű elemzéseihez (oldaltérnézés, cikkminőség, szerkesztési trendek) és a cikkek szűrésehez.

Használók és felhasználások

edit
Use this model for
  • a Wikipédia dinamika magas szintű elemzése, mint például a oldalnézet, a cikk minőség, vagy a szerkesztési trendek - pl. Hogyan különböznek a oldalnézetek dinamika a fizika és a biológia kategóriák között?
  • a releváns cikkekre való szűrés - pl. a zene kategóriába tartozó cikkekre való csak szűrő cikkek.
Don't use this model for
  • véglegesen megállapítja, hogy a cikk milyen témára vonatkozik
  • a cikkek vagy témák automatikus szerkesztése emberi beépítés nélkül
Current uses

Ez a modell az ORES része, és általában API-n keresztül elérhető. A Wikipédia, a platform kutatása és más wiki-felügyelő feladatok magas szintű elemzéséhez használják.

Example API call:
{{{model_input}}}

Étikai megfontolások, figyelmeztetések és ajánlások

edit
  • Ez a modell több évre (2020 közepétől) idősebb adatokon alapul.
  • Ez a modell a Word2vec-t használja oktatási funkcióként. A Word2vec, mint más természetes nyelvbehelyezések, kódolja az alapvetõ adatkészletek nyelvi előítéleteit - a nem, faji, etnikai, vallási stb.
  • Ez a modell nagyon változó teljesítményű különböző témák között - lásd a következő vizsgálati statisztikákat, hogy megértsük a témák közötti teljesítményét.

Módellátás

edit

A teljesítmény

edit

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

A végrehajtás

edit
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Adatok

edit
Data pipeline
A képzéshez szükséges adatokat egy sor felülvizsgálati azonosítótól szerezték. A felülvizsgálatról különböző információkat automatizált folyamatok segítségével kivettek, és a felülvizsgálati szöveget a word2vec-be adták, hogy egy cikk beilleszkedjen. Végül a címkéket a cikkhez kapcsolódó középső szintű WikiProject kategóriákból származtatják.
Training data
A képzési adatokat automatikusan és véletlenszerűen különítették a tesztadatoktól a képzés során a drafttopic git repository (amely mind a tervezet témáját, mind az cikk témáját képező modelleket képezi).
Test data
A tesztadatok automatikusan és véletlenszerűen elválasztották a vonatadatoktól a drafttopic git repository (amely mind a projekttémát, mind az cikktémát képezi).

A jogosítványok

edit

Címelt

edit

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
  title={ {{{language}}} {{{project}}} article topic model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/hu }
}