Template:Model card ORES article topic/uk

Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data, and ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Ця модель використовує текст статті для передбачення вероятності того, що стаття належить до набору тем.


Мотивація

edit

Як можна передбачити, в якій загальній тематиці знаходиться стаття? Відповідь на це питання корисна для різних аналізів динаміки Вікіпедії. Однак складно скласти дуже різноманітний спектр статей Вікіпедій у послідовні, послідовне тематичні тематики ручно.

Ця модель, частина набору моделей ORES, аналізує статтю для прогнозування її ймовірності приналежності до набору тем. Схожі моделі (хоча не обов'язково з тим самим рівнем продуктивності або теми, використовуються в близько десятку інших проектів.

Ця модель може бути корисна для аналізу високої рівня динаміки Вікіпедії (відгляди сторінок, якість статей, тенденції редагування) та фільтрації статей.

Користувачі та використання

edit
Use this model for
  • аналіз високої рівня динаміки Вікіпедії, наприклад, перегляд сторінки, якість статті або тенденції редагування - наприклад, як динаміка перегляду сторінки відрізняється між категоріями фізики та біології?
  • фільтрація до відповідних статей - наприклад, фільтрація статей тільки до тих, що входять до категорії музики.
Don't use this model for
  • визначити, на яку тему стаття відноситься
  • автоматизоване редагування статей або тем без людини в циркулі
Current uses

Ця модель є частиною ORES і загалом доступна через API. Вона використовується для аналізу високої рівня Вікіпедії, дослідження платформи та інших завдань на вики.

Example API call:
{{{model_input}}}

Етичні міркування, попередження та рекомендації

edit
  • Ця модель була підготовлена на даних, які вже є кілька років (з середини 2020 року).
  • Ця модель використовує Word2vec як функцію навчання. Word2vec, як і інші вбудовані мови, кодує мовні прибіжності базових наборів даних - в межах статі, раси, етнічності, релігії і т.д. Оскільки Вікіпедія знає прибіжності в своєму тексті, ця модель може кодувати і іноді відтворювати ці прибіжності.
  • Ця модель має дуже змінну продуктивність у різних темах - ознайомлюйтеся з статистикою випробувань нижче, щоб отримати відчуття міжтопечної продуктивності.

Модель

edit

Виконавність

edit

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Виконання

edit
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Дані

edit
Data pipeline
Обов'язкові дані були отримані з набору ідентифікаторів перегляду. Потім різні частини інформації про перегляд були витягнуті за допомогою автоматичних процесів, а текст перегляду був введен у word2vec, щоб отримати вбудоване статті.
Training data
Дані навчання були автоматично і випадково відокремлені від даних тесту під час навчання за допомогою drafttopic git repository (який навчає як проектну тему, так і статті-томіку моделі).
Test data
Отримані дані автоматично і випадково розрізняються від даних поїзда за допомогою drafttopic git repository (який навчає як моделі проекту та статті).

Ліцензії

edit

Цитата

edit

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
  title={ {{{language}}} {{{project}}} article topic model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/uk }
}