Template:Model card ORES article quality/ru

Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data, и ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Эта модель использует данные о пересмотре для прогнозирования вероятности того, что статья является определенной оценкой


Мотивация

edit

Эта модельная карта описывает модель для прогнозирования качества статей Википедии. Она использует структурные особенности, извлеченные из статьи, для маркировки статей Википедии с оценкой вероятности для каждого класса качества статьи.

Статьи Википедии варьируются по качеству от богатых, хорошо иллюстрированных, полностью ссылованных статей, которые полностью охватывают свою тему и легко читаются до однозначных предложений, которые определяют тему статьи, но не предлагают намного больше информации. Очень полезно иметь возможность надежно отличить между этими крайностями и различными этапами качества вдоль этого спектра. Редакторы Википедии разработали богатые рубрики для оценки качества статей Википедии и постоянно оценивают качество статей, чтобы помочь координировать работу на вики. Редакции используют эти оценки качества для оценки и приоритета их работы. Исследователи используют эти показатели качества для понимания динамики контента. Разработчики используют эти результаты качества в качестве фильтров при создании систем рекомендаций или других инструментов.

Википедия постоянно меняется, что делает это трудоемким (и в значительной степени невозможным) для редакторов, чтобы сохранить эти оценки качества полными и актуальными. Автоматическая модель качества может помочь заполнить эти пробелы, оценив качество статей, которые не были оценены или существенно изменились с тех пор, как они были в последний раз оценены. Таким образом, она может предоставить исследователям и разработчикам инструментов более последовательные данные и даже потенциально помочь редакторам определить статьи, которые могли бы извлечь выгоду из оценки человека.

Пользователи и использование

edit
Use this model for
  • анализ на высоком уровне тенденций в области качества изделий
  • фильтрация / ранжирование статей в инструментах - например , показывают только низкокачественные статьи в системе рекомендаций
  • выявление потенциальных путей улучшения статей - например, использование функции наименьшей стоимости из модели в качестве рекомендации
Don't use this model for
  • проекты за пределами русской Википедии
en:Википедия:Название пространство
Current uses

Эта модель является частью ORES и в целом доступна через API. Она используется для анализа Википедии на высоком уровне, исследования платформы и других задач на вики.

Example API call:
{{{model_input}}}

Этические соображения, предостережения и рекомендации

edit
  • Источники данных для этой модели являются несколькими годами - дрейф данных может исказить текущие результаты по сравнению с данными о обучении.
  • В настоящее время модель не учитывает качество конкретного письма, поэтому длинная статья с большим количеством поддельных слов будет зарегистрирована как высококачественная.
  • Различные вики имеют разные схемы маркировки - не используйте эту модель в сочетании с другими моделями для проведения анализа междувики.

Модель

edit

Выполнение

edit

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Реализация

edit
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Данные

edit
Data pipeline
Этикеты были собраны из оценок качества статьи на вики, а затем объединены с функциями пересмотра для создания исходного набора данных.
Training data
Данные поезда автоматически отделились от данных испытаний с использованием функционала из реверскоррингового хранилища.
Test data
Данные о испытаниях автоматически и случайно отделились от данных поезда с использованием функционала из ревскорингового хранилища и были сохранены во время процесса обучения.

Лицензии

edit

Цитаты

edit

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_quality,
  title={ {{{language}}} {{{project}}} article quality model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_quality/ru }
}