Edição de IP: aprimoramento de privacidade e redução de abusos/Ferramentas de melhoria

This page is a translated version of the page IP Editing: Privacy Enhancement and Abuse Mitigation/Improving tools and the translation is 81% complete.

Outdated translations are marked like this.

Contexto

Nosso objetivo para este projeto é duplo:

Primeiro, para proteger nossos projetos de vandalismo, assediadores, fantoches, vândalos de abuso de longo prazo, campanhas de desinformação e outros comportamentos perturbadores.
Em segundo lugar, para proteger nossos editores não registrados de perseguição, assédio e abuso por não publicar seus endereços IP.

Com base em nossas conversas na página de discussão do projeto e em outros lugares, ouvimos falar das seguintes maneiras em que os endereços IP estão sendo usados em nossos projetos:

Os endereços IP são úteis na procura de editores "próximos" - que estão editando a partir do mesmo ou de um intervalo de IP próximo
Eles são usados para pesquisar o histórico de contribuições de um editor não registrado
Os endereços IP são úteis para encontrar contribuições entre wikis
Eles são úteis para descobrir se alguém está tentando editar de uma VPN ou Tor
Eles são úteis para pesquisar a localização de um editor, incluindo factóides como sua universidade/empresa/agência governamental
Os endereços IP são usados para ver se um endereço IP está vinculado a um abusador de longa data conhecido
Eles às vezes são usados para definir filtros de abuso específicos para deter tipos específicos de spam
Os endereços IP são importantes para o bloqueio de intervalo

Vários desses fluxos de trabalho entram em ação quando tentamos ver se duas contas de usuário estão sendo usadas pela mesma pessoa, às vezes chamada de detecção de fantoche. Usar endereços IP para realizar a detecção de fantoche é um processo falho. Os endereços IP estão ficando cada vez mais dinâmicos com o aumento do número de pessoas e dispositivos que ficam online. Os endereços IPv6 são complicados e os intervalos são difíceis de descobrir. Para a maioria dos recém-chegados, os endereços IP parecem ser um monte de números aparentemente aleatórios que não fazem sentido, são difíceis de lembrar e de usar. Leva muito tempo e esforço para novos usuários se acostumarem a usar endereços IP para fins de bloqueio e filtragem.

Nosso objetivo é reduzir nossa dependência de endereços IP, introduzindo novas ferramentas que usam uma variedade de fontes de informação para encontrar semelhanças entre os usuários. A fim de mascarar os endereços IP sem afetar negativamente nossos projetos, temos que tornar os endereços IP visíveis redundantes para o processo. Essa também é uma oportunidade de criar ferramentas mais poderosas que ajudarão a identificar malfeitores.

Ideias propostas para construção de ferramentas

Queremos tornar mais simples para os usuários obterem as informações de que precisam de endereços IP para realizarem suas atividades. Para fazer isso, estamos pensando em três novas ferramentas/recursos.

Exemplo de como o recurso de informações de IP pode funcionar na prática.

1. Recurso de informação de IP

Este recurso é atualmente um trabalho em andamento. Para acompanhar, visite: Recurso de informação de IP.

Existem algumas informações críticas que os endereços IP fornecem, como localização, organização, possibilidade de ser Tor/VPN, rDNS, intervalo listado etc. Atualmente, se um editor deseja ver essas informações sobre um endereço IP, ele usaria uma ferramenta externa ou mecanismo de pesquisa para extrair essas informações. Podemos simplificar esse processo expondo essas informações para usuários confiáveis na wiki. No futuro, onde os endereços IP serão mascarados, essas informações continuarão a ser exibidas para nomes de usuário mascarados.

Uma preocupação que ouvimos dos usuários com quem conversamos até agora é que nem sempre é fácil saber se um IP vem de uma VPN ou pertence a uma lista negra. As listas negras são frágeis - algumas não são muito atualizadas, outras podem ser enganosas. Estamos interessados em saber em que cenários seria útil para você saber se um IP é de uma VPN ou pertence a uma lista negra e como você deve procurar essa informação agora.

Benefícios:

Isso eliminaria a necessidade dos usuários de copiar e colar endereços IP em ferramentas externas e de extrair as informações de que precisam.
Esperamos que isso reduza consideravelmente o tempo gasto na busca de dados.
No longo prazo, ajudaria a reduzir nossa dependência de endereços IP, que são difíceis de entender.

Riscos:

Com base na implementação, corremos o risco de expor informações sobre IPs a um grupo maior de pessoas do que apenas o conjunto limitado de usuários que estão atualmente cientes de como os endereços IP operam.
Dependendo do serviço subjacente que usamos para obter os detalhes sobre um IP, é possível que não sejamos capazes de traduzir as informações, mas mostrar as informações em inglês.
Há o risco de os usuários não entenderem se a organização estava por trás da edição e não o indivíduo que fez a edição.

2. Encontrar editores semelhantes

Para detectar fantoches (e usuários não registrados), os editores têm que se esforçar muito para descobrir se dois usuários são iguais. Isso envolve comparar as contribuições dos usuários, suas informações de localização, padrões de edição e muito mais. O objetivo desse recurso será simplificar esse processo e automatizar algumas dessas comparações que podem ser feitas sem trabalho manual.

This would be done with the help of a machine learning model that can identify accounts demonstrating a similar behavior. The model will be making predictions on incoming edits that will be surfaced to checkusers (and potentially other trusted groups) who will then be able to verify that information and take appropriate measures.

Poderíamos também ter uma maneira de comparar dois ou mais usuários não registrados para encontrar semelhanças, incluindo ver se eles estão editando de IPs próximos ou intervalos de IP. Outra oportunidade aqui é permitir que a ferramenta automatize alguns dos mecanismos de bloqueio que usamos - como a detecção automática de intervalo e sugerir intervalos a serem bloqueados de acordo.

Uma ferramenta como essa oferece muitas possibilidades - desde a identificação de indivíduos mal-intencionados até a descoberta de sofisticadas estrategias de fantoches. Mas também há o risco de expor segundas contas legítimas que desejam manter sua identidade em segredo por vários motivos. Isso torna este projeto complicado. Queremos ouvir de você quem deve usar esta ferramenta e como podemos mitigar os riscos.

With the help of the community, such a feature can evolve to compare features that editors currently use when comparing editors. One possibility is also to train a machine learning model to do this (similar to how ORES detects problematic edits).

Aqui está uma possibilidade de como esse recurso pode parecer na prática:

Encontrar editores semelhantes com IPs
Encontrar editores semelhantes com IPs mascarados

Benefícios:

Essa ferramenta reduziria muito o tempo e o esforço de nossos funcionários para encontrar pessoas de má-fé em nossos projetos.
Essa ferramenta também pode ser usada para encontrar intervalos comuns de editores com problemas conhecidos e facilitar o bloqueio do intervalo de IP.

Riscos:

If we use Machine Learning to detect sockpuppets, it should be very carefully monitored and checked for biases in the training data. Over-reliance on the similarity-index score should be cautioned against. It is imperative that human review be part of the process.
Easier access to information such as location can sometimes make it easier, not more difficult, to find identifiable information about someone.

3. Um banco de dados para documentar abusadores de longa data

Os vândalos de abuso de longo prazo são documentados manualmente nas wikis, se é que são documentados. Isso inclui escrever um perfil de seus comportamentos de edição, artigos que editam, indicadores de como reconhecer suas contas de fantoche, listando todos os endereços IP usados por eles e muito mais. Com várias páginas abrangendo os endereços IP usados por esses vândalos, é cada vez mais uma tarefa gigantesca pesquisar e encontrar informações relevantes quando necessário, se estiverem disponíveis. A melhor maneira de fazer isso seria construir um banco de dados que documente os abusadores de longa data.

Esse sistema facilitaria a busca cruzada de wikis por vândalos documentados que correspondam a um critério de busca. Eventualmente, isso poderia ser usado para sinalizar automaticamente os usuários quando seus IPs ou comportamentos de edição forem considerados compatíveis com os de abusadores de longa data conhecidos. Depois que o usuário foi sinalizado, um administrador pode tomar as medidas necessárias, se parecer apropriado. Há uma questão em aberto sobre se isso deve ser público, privado ou algo intermediário. É possível ter permissões para diferentes níveis de uso para acesso de leitura e edição no banco de dados. Queremos ouvir de você o que você acha que funcionaria melhor e por quê.

Exemplo do que uma pesquisa em um banco de dados de abusos de longa data pode potencialmente mostrar.

Custo:

Tal banco de dados precisaria que membros da comunidade participassem do preenchimento com os abusadores de longa data atualmente conhecidos. Isso pode ser uma quantidade significativa de trabalho para alguns wikis.

Benefícios:

A pesquisa entre wikis por abusadores documentados de longo prazo seria um enorme benefício sobre o sistema atual, reduzindo muito trabalho para os patrulheiros.
A sinalização automatizada de pessoas potencialmente problemáticas com base em padrões de edição e IPs conhecidos seria útil em muitos fluxos de trabalho. Isso permitiria aos administradores fazer julgamentos e ações com base nas sinalizações sugeridas.

Riscos:

À medida que construímos tal sistema, teríamos que pensar muito sobre quem tem acesso aos dados do banco de dados e como podemos mantê-los protegidos.

Essas ideias estão em um estágio muito inicial. Queremos sua ajuda com um comentário sobre essas ideias. Quais são alguns custos, benefícios e riscos que podemos estar negligenciando? Como podemos aprimorar essas ideias? Adoraríamos ouvir de você na página de discussão.

Ferramentas existentes usadas por editores

On-wiki tools

CheckUser: CheckUser allows a user with a checkuser flag to access confidential data stored about a user, IP address, or CIDR range. This data includes IP addresses used by a user, all users who edited from an IP address or range, all edits from an IP address or range, User agent strings, and X-Forwarded-For headers. Most commonly used for detecting sockpuppets.
Allow checkusers to have access to which users have over 50 accounts on the same email. The existence of those was confirmed in phab:T230436 (although the task itself is irrelevant). While this does not affect the IP privacy directly, it could slightly mitigate the effect of harder abuse management.

Ferramentas de projetos específicos (incluindo robôs e scripts)

Especifique em qual projeto a ferramenta é usada, o que ela faz e inclua o link, se possível

Ferramentas externas

Ferramentas ToolForge

Intersect contribs
WHOIS and reverse DNS
Editor interaction analyser – Analyse interactions between two or three users – activity on same pages, during the same time etc.
IPCheck: Allows you to look up information about an IP address including if it is a a proxy, tor node or potential VPN.
GUC – Global user contributions for any user.
Reverse DNS for a range

Third-party tools

Major IP address blocks: http://www.nirsoft.net/countryip/cz.html
User agent string lookup: http://www.useragentstring.com/
Nmap
Spamhaus lists and XBL (Exploits blacklist)
Talos – IP reputation (mainly for email spam)