Template:Model card ORES article topic/ko

Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data 그리고 ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
이 모델은 '문제 텍스트'를 사용하여 '문제가 일련의 주제에 속할 가능성이를 예측합니다.


동기부여

edit

기사가 어떤 일반적인 주제에 해당하는지 어떻게 예측할 수 있습니까? 이 질문에 답하는 것은 위키백과의 다양한 역학 분석에 유용합니다. 그러나 매우 다양한 위키백과 기사를 일관하고 일관된 주제로 수동으로 그룹화하기가 어렵습니다.

ORES 모델의 일부인 이 모델은 주제의 집합에 속하는 가능성을 예측하기 위해 기사를 분석합니다. 비슷한 모델 (이러한 성능 수준이나 주제로 반드시 사용하지는 않지만, 약 12 개의 다른 프로젝트에 걸쳐 배포됩니다. 또한 [[머신 학습 모델/생산/언어 아고스틱 링크 기반 기사의 주제>언어 아노스틱 기사의 주제 모델]]이 있습니다.

이 모델은 위키백과의 역학 (페이지뷰, 기사 품질, 편집 트렌드) 및 기사 필터링) 의 고급 분석에 유용할 수 있습니다.

사용자 및 사용

edit
Use this model for
  • 위키백과의 페이지뷰, 기사 품질, 편집 트렌드 등의 높은 수준의 분석 - 예를 들어, 물리학과 생물학 범주 사이의 페이지뷰 역학은 어떻게 다릅니다?
  • 관련 항목에 대한 필터링 - 예를 들어 음악 범주에 해당하는 항목에 대한
Don't use this model for
  • 기사 의 주제 를 확실 히 정하는 것
  • 인간이 무사히 기사를 편집하는 자동화
Current uses

이 모델은 ORES의 일부이며 API를 통해 일반적으로 액세스 할 수 있습니다. 위키백과, 플랫폼 연구 및 기타 위키 작업의 고 수준의 분석에 사용됩니다.

Example API call:
{{{model_input}}}

윤리적 고려 사항, 경고 사항 및 권고 사항

edit
  • 이 모델은 현재 몇 년 된 데이터 (2020 년 중반) 에 기초하여 훈련되었습니다. 그 기반 데이터 유동은 모델 출력에 왜곡을 일으킬 수 있습니다.
  • 이 모델은 훈련 기능으로 사용한다. 다른 자연어 임베디션과 마찬가지로, Word2vec는 기본 데이터 세트의 언어적 편향을 암호화합니다. 성별, 인종, 민족, 종교 등에 따라. 위키백과가 텍스트에서 편향을 알고 있기 때문에, 이 모델은 이러한 편향을 코딩하고 때로는 재생할 수 있습니다.
  • 이 모델은 다양한 주제에 걸쳐 매우 변동적인 성능을 가지고 있습니다.

모델

edit

성능

edit

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

시행

edit
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

데이터

edit
Data pipeline
훈련용 데이터는 수정 ID의 집합에서 가져왔다. 그 후 자동화된 프로세스를 사용하여 수정에 대한 다양한 정보가 추출되었고, 수정 텍스트는 문서 임베디션을 얻기 위해 word2vec에 입력되었습니다. 마지막으로, 레이블은 문서가 연관된 중간 수준의 위키프로젝트 범주에서 유래됩니다.
Training data
훈련 데이터는 drafttopic git repository (디래프트토피크와 기사토피크 모델을 훈련시키는) 를 사용하여 훈련 중에 자동으로 무작위로 테스트 데이터로부터 분리되었습니다.
Test data
테스트 데이터는 drafttopic git repository (디래프트토피크와 기사 주제 모델 모두 훈련하는) 를 사용하여 자동으로 무작위로 기차 데이터에서 분리되었습니다. 모델은 그 데이터에 대한 예측을 수행합니다.

면허

edit

인용

edit

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
  title={ {{{language}}} {{{project}}} article topic model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/ko }
}