Template:Model card ORES article quality/ru

Model card
Model card
This page is an on-wiki machine learning model card.
	A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)	Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)	WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interface	Ores homepage
Code	ORES Github, ORES training data, и ORES model binaries
Uses PII	No
In production?	Yes
Which projects?	{{{language}}} {{{project}}}
	Эта модель использует данные о пересмотре для прогнозирования вероятности того, что статья является определенной оценкой
	v; t; e;

Мотивация

Эта модельная карта описывает модель для прогнозирования качества статей Википедии. Она использует структурные особенности, извлеченные из статьи, для маркировки статей Википедии с оценкой вероятности для каждого класса качества статьи.

Статьи Википедии варьируются по качеству от богатых, хорошо иллюстрированных, полностью ссылованных статей, которые полностью охватывают свою тему и легко читаются до однозначных предложений, которые определяют тему статьи, но не предлагают намного больше информации. Очень полезно иметь возможность надежно отличить между этими крайностями и различными этапами качества вдоль этого спектра. Редакторы Википедии разработали богатые рубрики для оценки качества статей Википедии и постоянно оценивают качество статей, чтобы помочь координировать работу на вики. Редакции используют эти оценки качества для оценки и приоритета их работы. Исследователи используют эти показатели качества для понимания динамики контента. Разработчики используют эти результаты качества в качестве фильтров при создании систем рекомендаций или других инструментов.

Википедия постоянно меняется, что делает это трудоемким (и в значительной степени невозможным) для редакторов, чтобы сохранить эти оценки качества полными и актуальными. Автоматическая модель качества может помочь заполнить эти пробелы, оценив качество статей, которые не были оценены или существенно изменились с тех пор, как они были в последний раз оценены. Таким образом, она может предоставить исследователям и разработчикам инструментов более последовательные данные и даже потенциально помочь редакторам определить статьи, которые могли бы извлечь выгоду из оценки человека.

Пользователи и использование

Use this model for

анализ на высоком уровне тенденций в области качества изделий
фильтрация / ранжирование статей в инструментах - например , показывают только низкокачественные статьи в системе рекомендаций
выявление потенциальных путей улучшения статей - например, использование функции наименьшей стоимости из модели в качестве рекомендации

Don't use this model for

проекты за пределами русской Википедии

en:Википедия:Название пространство

Current uses

Эта модель является частью ORES и в целом доступна через API. Она используется для анализа Википедии на высоком уровне, исследования платформы и других задач на вики.

Example API call:

{{{model_input}}}

Этические соображения, предостережения и рекомендации

Источники данных для этой модели являются несколькими годами - дрейф данных может исказить текущие результаты по сравнению с данными о обучении.
В настоящее время модель не учитывает качество конкретного письма, поэтому длинная статья с большим количеством поддельных слов будет зарегистрирована как высококачественная.
Различные вики имеют разные схемы маркировки - не используйте эту модель в сочетании с другими моделями для проведения анализа междувики.

Модель

Выполнение

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Реализация

Model architecture

{{{model_architecture}}}

Output schema

{{{model_output_schema}}}

Example input and output

Input:

{{{model_input}}}

Output:

{{{model_output}}}

Данные

Data pipeline

Этикеты были собраны из оценок качества статьи на вики, а затем объединены с функциями пересмотра для создания исходного набора данных.

Training data

Данные поезда автоматически отделились от данных испытаний с использованием функционала из реверскоррингового хранилища.

Test data

Данные о испытаниях автоматически и случайно отделились от данных поезда с использованием функционала из ревскорингового хранилища и были сохранены во время процесса обучения.

Лицензии

Code: MIT license
Model: MIT license

Цитаты

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_quality,
  title={ {{{language}}} {{{project}}} article quality model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_quality/ru }
}