Research:Revision scoring as a service/Word lists/ms


ISO code Language Generated list Badwords Informal words Stopwords Dictionary Stemmer Contact person Wiki labels Interface Forms Campaign Needs
ms Bahasa Melayu (Wikipedia) 250 - - - - - See: Word lists requested no no no -
Generated list [1]

Words in the generated list commonly appear in reverted revisions but not in others. This list is generated using a TF-IDF approach.

  1. aiyah
  2. ajaraham
  3. althpought
  4. amagine
  5. anjeng
  6. anjenk
  7. anjing
  8. annabell
  9. ansara
  10. antiamling
  11. apakah
  12. apakala
  13. apapula
  14. ape
  15. arabny
  16. asu
  17. ativity
  18. babi
  19. baibai
  20. bakut
  21. bakuteh
  22. bakutteh
  23. bangsat
  24. bangsatny
  25. bangsatttttttttt
  26. bapak
  27. bara
  28. becaose
  29. becouse
  30. beliaoe
  31. bercanggahan
  32. berformat
  33. berisik
  34. bermancung
  35. berrehun
  36. bigined
  37. bisa
  38. blockquote
  39. bodoh
  40. boelan
  41. boetir
  42. brader
  43. brudder
  44. buger
  45. cardle
  46. casiu
  47. cecontoh
  48. charecher
  49. charsiu
  50. chinany
  51. chrisnandi
  52. cibai
  53. condong
  54. condude
  55. contoh
  56. creartures
  57. creaturs
  58. creazy
  59. dah
  60. damn
  61. diangggap
  62. diketemukanny
  63. diklaim
  64. distinquih
  65. ditoejoekan
  66. domuzu
  67. ecquisition
  68. elbegdorj
  69. emmss
  70. ensiklopidik
  71. entri
  72. erection
  73. example
  74. faitfull
  75. farmyard
  76. fatsun
  77. fookin
  78. fronf
  79. fuck
  80. ganyang
  81. gay
  82. griveth
  83. hah
  84. hahahaha
  85. hapus
  86. hariadi
  87. heafter
  88. hehe
  89. hendakny
  90. hensem
  91. herafter
  92. hina
  93. hubungi
  94. ibaratnya
  95. inggrisny
  96. intellgence
  97. interbiu
  98. irisan
  99. italik
  100. itoe
  101. jamban
  102. jeroan
  103. kalau
  104. kalimat
  105. kampang
  106. kapan
  107. karena
  108. kasi
  109. kat
  110. kebhoku
  111. kecap
  112. kelembapan
  113. kesengajaannya
  114. kesiapannya
  115. ketum
  116. ketumkethamin
  117. khinz
  118. kitoba
  119. klaim
  120. knowlwdge
  121. kobuki
  122. konek
  123. konowledge
  124. kontol
  125. kotor
  126. kumolo
  127. lah
  128. laknat
  129. latestads
  130. lawakan
  131. locset
  132. loghatny
  133. lotnisko
  134. lovato
  135. macam
  136. malaysiaaaaaaaaaaaaa
  137. malaysiabangsat
  138. maling
  139. malingsi
  140. malingsia
  141. malingsie
  142. malingya
  143. mampos
  144. mapang
  145. masukkan
  146. math
  147. mau
  148. melayuny
  149. meleysi
  150. memamah
  151. mempoenyai
  152. mengoelangi
  153. menyembunyikan
  154. meroepakan
  155. mochyn
  156. mosth
  157. mytricajus
  158. nak
  159. nanang
  160. navarra
  161. nikahi
  162. nonm
  163. nowiki
  164. nyasar
  165. oechapan
  166. ofternoon
  167. ordains
  168. othert
  169. pamitan
  170. partainya
  171. pedulik
  172. pencuri
  173. pengatas
  174. penularan
  175. perhimpoenan
  176. pig
  177. plagiator
  178. prapatan
  179. prinsipel
  180. pru
  181. pryogo
  182. pukimak
  183. raeding
  184. relatedby
  185. rosmah
  186. saksang
  187. sari
  188. satoe
  189. saya
  190. sayange
  191. scinece
  192. scrofa
  193. sekba
  194. selena
  195. senyumsmile
  196. sesungguhny
  197. shit
  198. shoul
  199. sial
  200. sialan
  201. siqalirik
  202. sisipkan
  203. sparerib
  204. spiessbraten
  205. subskrip
  206. suksuwan
  207. sumbangan
  208. sunting
  209. superskrip
  210. tai
  211. tajuk
  212. tak
  213. tapi
  214. tarragona
  215. tau
  216. tebal
  217. teks
  218. tendencies
  219. tengok
  220. terhina
  221. terseboet
  222. thirdly
  223. tiem
  224. tjahjo
  225. tki
  226. toys
  227. trainable
  228. truffle
  229. truffles
  230. trymasak
  231. tsakhiagiin
  232. tukang
  233. tukarlah
  234. tukasnya
  235. tusukannya
  236. ungkapnya
  237. ungulata
  238. unlidless
  239. usperior
  240. vmfy
  241. walaoepoen
  242. wasit
  243. wassup
  244. whay
  245. whosooever
  246. whososoever
  247. wikiprojek
  248. wmt
  249. yuddy
  250. zamre
Generated common words

Common words appear on all revisions reverted or otherwise. In the English language this would include words like 'the' or 'is' which are meaningless on their own. This list is generated using a TF-IDF approach.

  1. accessdate
  2. ada
  3. adalah
  4. ahli
  5. air
  6. akan
  7. amerika
  8. anak
  9. and
  10. antara
  11. apabila
  12. area
  13. arrondissement
  14. asal
  15. asp
  16. atas
  17. atau
  18. awal
  19. bagi
  20. bahagian
  21. bahasa
  22. bahawa
  23. bandar
  24. banyak
  25. barat
  26. baru
  27. bawah
  28. beberapa
  29. beliau
  30. berjaya
  31. bermula
  32. bersama
  33. besar
  34. bin
  35. boleh
  36. buah
  37. bukan
  38. bulan
  39. canton
  40. caption
  41. category
  42. center
  43. cite
  44. class
  45. coa
  46. code
  47. com
  48. communaut
  49. communes
  50. dalam
  51. dan
  52. dapat
  53. dari
  54. daripada
  55. date
  56. deg
  57. dengan
  58. department
  59. dia
  60. digunakan
  61. dikenali
  62. diri
  63. district
  64. dua
  65. dunia
  66. elevation
  67. fail
  68. file
  69. first
  70. for
  71. from
  72. gambar
  73. german
  74. gov
  75. hanya
  76. hari
  77. hidup
  78. hingga
  79. home
  80. htm
  81. html
  82. http
  83. iaitu
  84. ialah
  85. image
  86. imej
  87. index
  88. infobox
  89. inggeris
  90. ini
  91. insee
  92. intercommunality
  93. itu
  94. januari
  95. jenis
  96. jpg
  97. juga
  98. jun
  99. kali
  100. kategori
  101. kawasan
  102. kecil
  103. kedua
  104. kelahiran
  105. kemudian
  106. kepada
  107. kerajaan
  108. kerana
  109. ketika
  110. ketua
  111. kini
  112. kumpulan
  113. lagi
  114. lain
  115. lama
  116. laman
  117. lat
  118. latitude
  119. lebih
  120. left
  121. lihat
  122. link
  123. location
  124. lon
  125. longitude
  126. luar
  127. mac
  128. malaysia
  129. mana
  130. masa
  131. masih
  132. max
  133. mayor
  134. mei
  135. melalui
  136. melayu
  137. membuat
  138. mempunyai
  139. mendapat
  140. mengambil
  141. menggunakan
  142. mengikut
  143. menjadi
  144. mereka
  145. merupakan
  146. mula
  147. nama
  148. name
  149. namun
  150. ndash
  151. negara
  152. negeri
  153. news
  154. old
  155. oleh
  156. orang
  157. org
  158. pada
  159. page
  160. paling
  161. partement
  162. party
  163. pautan
  164. pelbagai
  165. pernah
  166. pertama
  167. php
  168. plan
  169. png
  170. population
  171. postal
  172. publisher
  173. pula
  174. pusat
  175. rasmi
  176. raya
  177. ref
  178. references
  179. reflist
  180. region
  181. right
  182. rujukan
  183. rumah
  184. sahaja
  185. salah
  186. sama
  187. satu
  188. sebagai
  189. sebelum
  190. sebuah
  191. sec
  192. secara
  193. sehingga
  194. sejak
  195. sejarah
  196. sekitar
  197. selain
  198. selatan
  199. selepas
  200. semasa
  201. semua
  202. semula
  203. senarai
  204. sendiri
  205. seorang
  206. seperti
  207. serta
  208. setiap
  209. size
  210. small
  211. ssel
  212. state
  213. stub
  214. style
  215. svg
  216. syarikat
  217. tahun
  218. tanah
  219. tanpa
  220. telah
  221. tempat
  222. terdapat
  223. terhadap
  224. term
  225. termasuk
  226. tersebut
  227. tetapi
  228. the
  229. thumb
  230. tiada
  231. tidak
  232. tiga
  233. tinggi
  234. title
  235. tunas
  236. turut
  237. type
  238. untuk
  239. url
  240. utama
  241. utara
  242. walaupun
  243. web
  244. website
  245. with
  246. www
  247. yang
  248. year

Bad words

Bad words are words unwelcome on any page. This would include curse words, spam and other content that would be reverted regardless of where it is inserted.

Needs bad words... Use |list-badwords=

Informal words

Informal words are words unwelcome on article namespace but would be acceptable on talk pages. This would include words such as 'hello' or 'hahaha' which would be fine in discussions but not in articles.

Needs informal words... Use |list-informal=