Template:Model card ORES article topic/ar

Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github، ORES training data، و ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
يستخدم هذا النموذج نص المقال للتنبؤ باحتمال أن المقال ينتمي إلى مجموعة من المواضيع.


الدافع

edit

كيف يمكننا التنبؤ بأي موضوع عام يقع مقال؟ يجيب على هذا السؤال مفيدًا لتحليلات مختلفة لتنشطة ويكيبيديا. ومع ذلك، من الصعب تجميع مجموعة متنوعة جدًا من مقالات ويكيبيديا إلى مواضيع متماسكة ومتسقة يدويًا.

هذا النموذج ، وهو جزء من مجموعة ORES من النماذج ، يحلل مقالا للتنبؤ بعرضها من الانتماء إلى مجموعة من الموضوعات. يتم نشر نماذج مماثلة (على الرغم من أنها ليست بالضرورة ذات نفس مستوى الأداء أو الموضوعات ، على نحو 12 مشروعًا آخرًا. هناك أيضًا نموذجات التعلم الآلي / الإنتاج / اللغة المستندة إلى روابط مقالة معقولة على النحو الموضح من النموذغات معقولة للمادة).

قد يكون هذا النموذج مفيدًا للتحليلات رفيعة المستوى لديناميكية ويكيبيديا (رؤى الصفحات، جودة المقالات، اتجاهات التحرير) وتصفية المقالات.

المستخدمين واستخدامات

edit
Use this model for
  • تحليلات رفيعة المستوى للديناميكيات في ويكيبيديا مثل عرض الصفحة، جودة المقال، أو تحرير الاتجاهات - على سبيل المثال كيف تختلف ديناميكيات عرض الصفحات بين فئات الفيزياء والبيولوجيا؟
  • تصفية للمواد ذات الصلة - على سبيل المثال تصفية المواد فقط إلى تلك في فئة الموسيقى.
Don't use this model for
  • تحديد موضوع المقال بشكل نهائي
  • تحرير الآلي للمواد أو الموضوعات دون وجود إنسان في الحلقة
Current uses

هذا النموذج هو جزء من ORES، ويمكن الوصول إليه بشكل عام عبر API. يستخدم لتحليل رفيع المستوى من ويكيبيديا، والبحث عن المنصة، وغيرها من المهام على ويكي.

Example API call:
{{{model_input}}}

الاعتبارات الأخلاقية والتحذيرات والتوصيات

edit
  • تم تدريب هذا النموذج على بيانات عمرها الآن عدة سنوات (من منتصف 2020). قد يؤدي التدفق الأساسي للبيانات إلى تحريف نتائج النموذجيات.
  • يستخدم هذا النموذج Word2vec في إطار التدريب. Word2vec، مثل غيرها من إضافة اللغة الطبيعية، يرمز التحيزات اللغوية لمجموعات البيانات الأساسية - على طول خطوط الجنس والعرق والعرقية والدين وما إلى ذلك. نظرًا لأن ويكيبيديا تعرف التحيزات في نصها، يمكن أن يرمز هذا النموع ويعيد في بعض الأحيان إعادة إنتاج تلك التحيزات.
  • هذا النموذج لديه أداء متغير للغاية عبر الموضوعات المختلفة - راجع إحصائيات الاختبار أدناه للحصول على إحساس بأداء بين الموضوعات.

النموذج

edit

الأداء

edit

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

التنفيذ

edit
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

البيانات

edit
Data pipeline
تم الحصول على البيانات التي يجب تدريبها من مجموعة من أجهزة تعريف المراجعة. ثم تم استخراج مختلف قطع المعلومات عن المراجعة باستخدام عمليات تلقائية ، وتم إدخال نص المراجعة في word2vec للحصول على تضمين مقالة. أخيرا ، يتم استنباط اللقب من فئات WikiProject المتوسطة المستوى التي ترتبط بالمقال.
Training data
تم فصل بيانات التدريب تلقائيًا وعشوائيًا عن بيانات الاختبار أثناء التدريب باستخدام drafttopic git repository (التي تدرب على كل من النماذج المتعلقة بالموضوع والمقالات).
Test data
تم فصل بيانات الاختبار تلقائيًا وبشكل عشوائي عن بيانات القطار باستخدام drafttopic git repository (التي تدرب على كل من نماذج مشروع وموضوع المقال). ثم يقوم النموذج بتنبؤ على تلك البيانات ، والتي يتم مقارنتها مع الحقيقة الأرضية الأساسية لحساب إحصاءات الأداء.

الترخيصات

edit

الإستشهاد

edit

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
  title={ {{{language}}} {{{project}}} article topic model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/ar }
}