Research:Revision scoring as a service/Signpost/1 - Intro/tr

EpochFail, とある白い猫 ve He7d3r - 18 Şubat 2015

Vikipedi bugün geldiği seviyede çalışması için ağırlıklı olarak yapay zekâ temelli araçlara dayanmaktadır. Yapay zekânın kullanımının en belirgin görüldüğü kullanımı İngilizce Vikipedi'de vandalizme karşı kullanılan ClueBot NG, Huggle ve STiki gibi araçlardır. Bu gelişmiş viki araçları vandalizimi akıllı algoritmalar ile geriye alma veya zararlı değişiklikleri aciliyet sırasına koyarak insan incelemesine sunarlar. Bu araçların 2006-2007de olan İngilizce Vikipedideki büyüme patlamasının etkisini hafifleterek topluluğun iş yükü altında boğulmasını sağladığı düşünülebilir.

Ne yazıkki, yapay zekânın geliştirilmesi ve uygulamaya sokulması oldukça zordur. Bir araç geliştiricisinin hem istatistiki sınıflandırma, doğal dil işleme ve gelişmiş programlama tekniklerinde uzmanlığı olması hem de yüksek miktarda veriyi işlemek ve saklamak için donanıma ulaşabilme imkânının bulunması gerekmektedir. Ayrıca buna ek olarak bu yapay zekâ algoritmalarının sürdürülmesi ve Vikipedi’deki günümüzün kalite kaygılarıyla güncel kalması kısmi de olsa beraberinde bir iş yükünü getirir. Bu yapay zekâ temelli araçlar büyük ihtimalle bu gibi zorluklar yüzünden sadece İngilizce Vikipedi’de ve bazı diğer büyük Vikilerde mevcuttur.

Bizim Değişiklik Değerlendirme Projesi ile amacımız; ağır işi ele alıp güçlü yapay zeka algoritmalarını geliştirmek ve sürdürmek suretiyle, araç geliştiricileri yapmak zorunda kalmamasını sağlamaktır. Bu çok dilli makine öğrenimli sınıflandırma servisi değişiklikler için kalite değerlendirmesine ihtiyaç duyan yeni araçların geliştirilmesine destek verecektir.

Biz kalite değerlendirmesinin kullanımıni iki farklı strateji ile kullanıma sunacağız

Bizim web temelli ara yüzümüz ile (botlar ve aletler için)

http://ores.wmflabs.org/scores/enwiki?models=reverted&revids=644899628|644897053 →

{"644899628": 
  {"zararlı": 
    {"tahmin": evet, 
     "olasılık": {'evet': 0.834253, 'hayır': 0.165747}
    }
  },
 "644897053":
  {"zararlı": 
    {"tahmin": hayır, 
     "olasılık": {'hayır': 0.95073, 'evet': 0.04927}
    }
  }
}

Bizim kütüphanemiz ile (toplu işlemeler için)

from mw import api
from revscoring.extractors import APIExtractor
from revscoring.scorers import MLScorerModel

model = MLScorerModel.load(open("trwiki.damaging.20150201.model"))
api_session = api.Session("https://tr.wikipedia.org/w/api.php")
extractor = APIExtractor(api_session, model.language)

for rev_id in [644899628, 644897053]:
    feature_values = extractor.extract(rev_id, model.features)
    score = model.score(feature_values)
    print(score)

Biz ayrıca yeni modellemeler için işlenmemiş etiketli verilerimizi de sağlayacağız.

Projenin durumu ve projeye katılım

Elle kodlama ara yüzünün taslağı

Hali hazırda biz şu ilk kilometre taşımıza varmış bulunuyoruz: “Zarar algılamadaki en gelişmiş sonuçları İngilizce, Portekizce ve Türkçe Vikipedilerde tekrarlamak”. İlerki aylarda manuel elle kodlama sistemi geliştireceğiz ve gönüllü guruplarından bize rastgele seçilmiş değişiklikleri "zararlı" ve/veya "iyi niyetli" olarak sınıflandırmalarını isteyeceğiz. Bu yeni veri kümeleri bizim daha iyi sınflandırıcıları eğitmemize yardımcı olacak. Eğer veri toplamamıza yardımcı olmak istiyorsanız veya sistemimizi daha fazla dile yaymak için yardımcı olmak istiyorsanız bizimle iletişim kurmak için tartışma sayfamıza not düşmekten çekinmeyiniz.

Ayrıca Bakınız

Değişiklik Değerlendirme Projesi sayfası (iş tahtası ve ödenek açıklamaları).
Depolamalar (pull istekleri memnuniyetle karşılanır)