IP Editing: Privacy Enhancement and Abuse Mitigation/Research and tools/ja

This page is a translated version of the page IP Editing: Privacy Enhancement and Abuse Mitigation/Research and tools and the translation is 53% complete.
Outdated translations are marked like this.

IP編集を禁じたポルトガル語版ウィキペディアのデータ

Portuguese Wikipedia’s metrics following restriction

2021年8月30日更新

Hello. This is a brief update about Portuguese Wikipedia’s metrics since they started requiring registration to edit. We have a comprehensive report on the Impact report page. This report includes metrics captured through data as well as a survey that was conducted among active Portuguese Wikipedia contributors.

All in all, the report presents the change in a positive light. We have not seen any significant disruption over the time period these metrics have been captured. In light of this, we are now encouraged to run an experiment on two more projects to see if we observe similar impact. All projects are unique in their own ways and what holds true for Portuguese Wikipedia might not hold true for another project. We want to run a limited-time experiment on two projects where registration will be required in order to edit. We estimate that it will take approximately 8 months for us to collect enough data to see significant changes. After that time period, we will return to not requiring registration to edit while we analyse the data. Once the data is published, the community will be able to decide for themselves whether or not they want to continue to disallow unregistered editing on the project.

We are calling this the Login Required Experiment. You will find more detail as well as a timeline on that page. Please use that page and its talk page to discuss this further.

Portuguese Wikipedia IP editing restriction

ポルトガル語版ウィキペディアは昨年、プロジェクトの編集から非登録編集者を追放しました。直近の2、3ヵ月にわたり、当チームでは当該プロジェクトにおけるこの措置の反動と全般的な健全性のデータを収集しています。またコミュニティの複数の参加者から経験を聞き取りました。現在、すべてのデータを集計して当該プロジェクトの現状を正確に表現する最終段階にあります。近日中に情報更新ができるよう願っています。

ツール

ツール開発

As you might already know, we are working on building some new tools, partly to soften the effect of introducing temporary accounts, but also just to build better anti-vandalism tools for everyone. It is not a secret that the state of moderation tools on our projects doesn’t give the communities the tools they deserve. There is a lot of scope for improvement. We want to build tools that make it easier for anti-vandalism fighters to work effectively. We also want to reduce the barrier to entry into these roles for non-technical contributors.

We have talked about ideas for these tools before and I will provide a brief update on these below. Note that progress on these tools has been slow in the last few months as our team is working on overhauling SecurePoll to meet the needs of the upcoming WMF Board elections.

IP Info feature

 
Mockup for IP Info

We are building a tool that will display important information about an IP address which is commonly sought in investigations. Typically patrollers, admins and checkusers rely on external websites to provide this information. We hope to make this process easier for them by integrating information from reliable IP-vendors within our websites. We recently built a prototype and conducted a round of user testing to validate our approach. We found that a majority of the editors in the interview set found the tool helpful and indicated they would like to use it in the future. There is an update on the project page that I would like to draw your attention to.

Key questions that we would like to have your feedback on the project talk page:

  • When investigating an IP what kinds of information do you look for? Which page are you likely on when looking for this information?
  • What kinds of IP information do you find most useful?
  • What kinds of IP information, when shared, do you think could put our anonymous editors at risk?

編集者の照会機能

このプロジェクトは従来、「近隣の利用者」※1あるいは「靴下遣いの検出」※2と呼んでいました。靴下遣い(ソックパペット)の意味がわからない人にも通じるような、適切な名前を探しています。("※":1=Nearby editors。2=Sockpuppet detection。)

このプロジェクトは初期段階にあります。ウィキメディア財団研究部門に既存のプロジェクトは同様の編集行動を示した編集者2人の検出に役立つかもしれません。これにより自動生成された個別のアカウント利用者名で編集した場合、複数の未登録編集者を紐付けするのに役立ちます。1年前にこのプロジェクトについて協議を始めた当初は、支持する声を多く聞きました。また、そのような機能の開発にまつわるリスクも耳にしました。近々、試作版を作成してコミュニティと共有したいと計画しています。このプロジェクト用にプロジェクトページを設け、まだ内容は豊かではありません。近日中に情報更新ができるよう願っています。

Like mentioned previously, our foremost goal is to provide better anti-vandalism tools for our communities which will provide a better moderation experience for our vandal fighters while also working towards making the IP address string less valuable for them. Another important reason to do this is that IP addresses are hard to understand and are really very useful only to tech-savvy users. This creates a barrier for new users without any technical background to enter into functionary roles as there is a higher learning curve for them to work with IP addresses. We hope to get to a place where we can have moderation tools that anyone can use without much prior knowledge.

The first thing we decided to focus on was to make the CheckUser tool more flexible, powerful and easy to use. It is an important tool that services the need to detect and block bad actors (especially long-term abusers) on a lot of our projects. The CheckUser tool was not very well maintained for many years and as a result it appeared quite dated and lacked necessary features.

We also anticipated an uptick in the number of users who opt-in to the role of becoming a CheckUser on our projects once temporary accounts are introduced. This reinforced the need for a better, easier CheckUser experience for our users. With that in mind, the Anti-Harassment Tools team spent the past year working on improving the CheckUser tool – making it much more efficient and user-friendly. This work has also taken into account a lot of outstanding feature requests by the community. We have continually consulted with CheckUsers and stewards over the course of this project and have tried our best to deliver on their expectations. The new feature is set to go live on all projects in October 2020.

The next feature that we are working on is IP info. We decided on this project after a round of consultation on six wikis which helped us narrow down the use cases for IP addresses on our projects. It became apparent early on that there are some critical pieces of information that IP addresses provide which need to be made available for patrollers to be able to do their roles effectively. The goal for IP Info, thus, is to quickly and easily surface significant information about an IP address. IP addresses provide important information such as location, organization, possibility of being a Tor/VPN node, rDNS, listed range, to mention a few examples. By being able to show this, quickly and easily without the need for external tools everyone can’t use, we hope to be able to make it easier for patrollers to do their job. The information provided is high-level enough that we can show it without endangering the anonymous user. At the same time, it is enough information for patrollers to be able to make quality judgements about an IP address.

IP情報に次いで私たちは類似の編集者検出機能 (finding similar editors feature) に取り組む予定です。チェックユーザーと協働して構築する機械学習モデルを採用、過去のチェックユーザーのデータに基づく訓練をして利用者の言動と2人以上の利用者が非常に類似した言動を示したというフラッグを比較します。このモデルは利用者が活動したページ類、記述のスタイル、編集した時間帯などを考慮し、2人の編集者の類似度を予測します。モデルが可能な限り正確であることを確認するには、相応の注意を持って実施しています。

Once it’s ready, there is a lot of scope for what such a model can do. As a first step we will be launching it to help CheckUsers detect socks easily without having to perform a lot of manual labor. In the future, we can think about how we can expose this tool to more people and apply it to detect malicious sockpuppeting rings and disinformation campaigns.

詳細のご参照とコメント投稿は当プロジェクトのツールページにお寄せください。

研究

IP masking impact report

IP addresses are valuable as a semi-reliable partial identifier, which is not easily manipulated by their associated user. Depending on provider and device configuration, IP address information is not always accurate or precise, and deep technical knowledge and fluency is needed to make best use of IP address information, though administrators are not currently required to demonstrate such fluency to have access. This technical information is used to support additional information (referred to as “behavioural knowledge”) where possible, and the information taken from IP addresses significantly impact the course of administrative action taken.

 
A Wikimedia Foundation-supported report on the impact that IP masking will have on our community.

On the social side, the issue of whether to allow unregistered users to edit has been a subject of extensive debate. So far, it has erred on the side of allowing unregistered users to edit. The debate is generally framed around a desire to halt vandalism, versus preserving the ability for pseudo-anonymous editing and lowering the barrier to edit. There is a perception of bias against unregistered users because of their association with vandalism, which also appears as algorithmic bias in tools such as ORES. Additionally, there are major communications issues when trying to talk to unregistered users, largely due to lack of notifications, and because there is no guarantee that the same person will be reading the messages sent to that IP talk page.

In terms of the potential impact of IP masking, it will significantly impact administrator workflows and may increase the burden on CheckUsers in the short term. If or when IP addresses are masked, we should expect our administrators' ability to manage vandalism to be greatly hindered. This can be mitigated by providing tools with equivalent or greater functionality, but we should expect a transitional period marked by reduced administrator efficacy. In order to provide proper tool support for our administrators’ work, we must be careful to preserve or provide alternatives to the following functions currently fulfilled by IP information:

  • ブロックの有効性と傍系の見積もり
  • Some way of surfacing similarities or patterns among unregistered users, such as geographic similarity, certain institutions (e.g. if edits are coming from a high school or university)
  • The ability to target specific groups of unregistered users, such as vandals jumping IPs within a specific range
  • Location or institution-specific actions (not necessarily blocks); for example, the ability to determine if edits are made from an open proxy, or public location like a school or public library.

未登録利用者の一時的なアカウントもしくは識別子をどう処理するかによって、未登録利用者との意思疎通を改善できる場合があります。IPを秘匿してもログアウト中にプロジェクトを編集できる機能を維持するなら、下地として未登録の編集や匿名の荒らし行為をめぐる根本的な議論や懸念も、未登録利用者に対する偏見も大幅に変わる可能性はほとんどありません。

チェックユーザーの作業手順

新しい Special:Investigate ツールを設計するにあたり、さまざまなプロジェクトでチェックユーザーに何度か聞き取り調査をお願いしました。その結果と実際の事例の段階的な分析(walkthroughs)を受け、チェックユーザーの業務ワークフローを大きく5分類しました。

  • * 評価:当該性と複雑さについて案件を評価。(トリアージ=Triaging)
  • 人物像の作成:複数アカウントの背後にいる特定の利用者を確定するため、行動パターンを作成。
  • 検証:チェックユーザー・ツールを使い、複数のIPアドレスとユーザーエージェントを調査。
  • 判定:この技術的な情報と、人物像の作成手順で得た行動パターンの情報を照合し、どの管理者行動を取るべきか、最終決断に役立てる。
  • 終了:公開の場と必要に応じて非公開の場で調査結果を発表、将来的に使えるように情報を適切に過去ログ化する。

信頼安全チーム (※1) から応援を得てチェックユーザー・ツールがウィキメディア財団による究明やT&S案件まで遡上する要素となるか感触を得ました。 (※1T&S=Trust and Safety)

チェックユーザーツールの直感的でない情報表示に加え、リンク単位で新しいタブを開かせるという仕様こそ、最もありがちで明白な問題点に結びついています。開いたタブはたちまちすごい数に達して手に負えなくなり、大混乱を引き起こします。さらに悪いことにチェックユーザーが抽出する情報は高度に技術的でパッと見では把握しづらく、タブを簡単には追跡できません。聞き取り調査に応じた人は全員、情報を追跡するには別のソフトウェアを使ったり、または物理的に紙にペンで書き留めるなど手段に頼っていると述べました。

またあわせて英語版ウィキペディアのソックパペット究明(※)ページを対象に解析を行い、基本的な指標として処理した件数、ボツになった件数、特定の通報に何件のソックパペット (なりすまし) が含まれるか割り出しました。(※=Sockpuppet Investigations)

巡回者が IP アドレスを利用

これまで私たちのプロジェクトにおける巡回の調査は一般に巡回者の負担する作業量もしくは作業手順 (workload or workflow) に焦点を当てました。直近ではウィキペディアの巡回調査の焦点は巡回者の作業手順、現行の荒らし対策の慣行に潜む脅威の特定に着目しました。さらに前の調査では、一例として新規ページの巡回調査 (New Page Patrol survey) ならびに巡回者の作業量調査 (Patroller work load study) は英語版ウィキペディアを対象に実施しました。また巡回者の作業手順に限定して、より具体的にはボット巡回ツールが巡回者の作業量に与える影響も調べます。

調査の対象は以下のウィキ5件としました。

  • 日本語版ウィキペディア
  • オランダ語版ウィキペディア
  • ドイツ語版ウィキペディア
  • 中国語版ウィキペディア
  • 英語版ウィキクオート

They were selected for known attitudes towards IP edits, percentage of monthly edits made by IPs, and any other unique or unusual circumstances faced by IP editors (namely, use of the Pending Changes feature and widespread use of proxies). Participants were recruited via open calls on Village Pumps or the local equivalent. Where possible, we also posted on Wiki Embassy pages. Unfortunately, while we had interpretation support for the interviews themselves, we did not extend translation support to the messages, which may have accounted for low response rates. All interviews were conducted via Zoom, with a note-taker in attendance.

従来の調査から得た知見を元に、IP 情報の体系的または統一的な使用は見つかりませんでした。また、この情報は一定の疑いの閾値を超えた段階でのみ検索しました。利用者の不審な活動の詳細な調査のほとんどは公開されたオンウィキの情報から始まり、従来のローカルの編集やグローバル投稿の確認、あるいはこれまでの追放の検索などです。

IP アドレスの情報に関しては、精度と正確性の重要度は低めです。特定の IP 情報サイトを選んだ場合に同一の IP アドレスに対して地理的位置を3種類返してきたとして、私たちの聞き取り調査の協力者の一人の言葉を借りるなら、地理的1の精度は定量制と比べると重要度が低いのです。それは言い換えるなら、特定の IP アドレスが毎回、特定の国から発信していると示す限り、正確か制度はどうかはあまり重要ではないとのことです。これは IP アドレス情報がどのように使われるか、私たちの理解に沿っています。単一の機器もしくは人物に関連づけた情報としてはやや特定性を備え、一般の人にはそれを誤魔化すことはかなり困難であると言えます。利用者に関連づけた情報は、関連性を備えていて変更が難しいという点が重要であり、その精度あるいは正確性はそれよりも重要度が低いのです。

私たちが気づいたことから IP アドレスの情報ツールの鍵となる設計要素に光を当てました。

  • 生データが一眼で判断できる結果を示すべき
  • IP アドレス情報の鍵となる要素を以下のようにまとめる。
    • 地理的位置(可能な場合は都市もしくは地域レベルで)
    • 登録された組織名
    • 接続の種別(トラフィックが多いデータセンターや携帯機器のネットワークか少ない住宅地のブロードバンドか)
    • プロキシのステータスを yes または no の二元で示すべき

倫理上の留意点として、どんな結論もどのような経緯でそれに至ったのか、IP 情報の抽出にありがちな不適切さないしは不明確さを説明することが重点として求められます。意見を聞いた巡回者からこれを大きな心配事としてあげた人はいませんでしたが、管理上の操作を正当化する(justifications)ツールを作成するのであれば、私たちのツールに備わった限界を注意深くはっきり示さなければなりません。

––
Best regards,
Trust and Safety Product

Please use the project talk page for discussions on the matter. For any issues concerning this release, please don't hesitate to leave a message on the project talk page or contact Szymon Grabarczuk.