IP 편집: 개인정보 보호 강화 및 남용 완화/연구 및 도구

This page is a translated version of the page IP Editing: Privacy Enhancement and Abuse Mitigation/Research and tools and the translation is 100% complete.

IP 편집을 비활성화하는 포르투갈어 위키백과의 데이터

제한에 따른 포르투갈어 위키백과의 메트릭

2021년 8월 30일 업데이트

안녕하세요. 이것은 편집을 위해 등록을 요구하기 시작한 이후 포르투갈어 위키백과의 측정항목에 대한 간략한 업데이트입니다. 영향 보고서 페이지에 포괄적인 보고서가 있습니다. 이 보고서에는 데이터를 통해 캡처한 측정 지표와 포르투갈어 위키백과 활성 기여자 사이에서 수행된 설문조사가 포함됩니다.

대체로 보고서는 긍정적인 관점에서 변화를 제시하고 있습니다. 이러한 측정 지표가 캡처된 기간 동안 심각한 중단을 본 적이 없습니다. 이에 비추어 이제 우리는 유사한 영향이 관찰되는지 확인하기 위해 두 개의 추가 프로젝트에서 실험을 실행하는 것이 좋습니다. 모든 프로젝트는 고유한 방식으로 고유하며 포르투갈어 위키백과에 적용되는 내용이 다른 프로젝트에는 적용되지 않을 수 있습니다. 편집을 위해 등록이 필요한 두 개의 프로젝트에 대한 제한된 시간 실험을 실행하려고 합니다. 중요한 변경 사항을 확인하기에 충분한 데이터를 수집하는 데 약 8개월이 소요될 것으로 예상합니다. 그 기간이 지나면 데이터를 분석하는 동안 편집을 위해 등록을 요구하지 않는 상태로 돌아갑니다. 데이터가 게시되면 커뮤니티에서 프로젝트에 대한 등록되지 않은 편집을 계속 허용할지 여부를 스스로 결정할 수 있습니다.

이것을 로그인 필수 실험이라고 합니다. 해당 페이지에서 자세한 내용과 타임라인을 찾을 수 있습니다. 이에 대해 더 논의하려면 해당 페이지와 해당 토론 페이지를 사용하세요.

포르투갈어 위키백과 IP 편집 제한

포르투갈어 위키백과는 작년에 등록되지 않은 편집자가 프로젝트를 편집하는 것을 금지했습니다. 지난 몇 달 동안 우리 팀은 이러한 움직임이 프로젝트의 전반적인 상태에 미치는 영향에 대한 데이터를 수집했습니다. 우리는 또한 여러 커뮤니티 회원들과 그들의 경험에 대해 이야기했습니다. 우리는 프로젝트 상태의 정확한 그림을 나타내는 모든 데이터를 컴파일하기 위해 마지막 비트를 작업하고 있습니다. 가까운 시일 내에 이에 대한 업데이트가 있기를 바랍니다.

도구

도구 개발

이미 알고 계시겠지만, 우리는 부분적으로 IP 마스킹의 영향을 완화할 뿐만 아니라 모두를 위한 더 나은 문서 훼손 방지 도구를 만들기 위해 몇 가지 새로운 도구를 구축하기 위해 노력하고 있습니다. 우리 프로젝트의 중재 도구 상태가 커뮤니티에 필요한 도구를 제공하지 않는다는 것은 비밀이 아닙니다. 개선의 여지가 많습니다. 우리는 문서 훼손 방지 활동가가 효율적으로 작업할 수 있도록 하는 도구를 만들고자 합니다. 우리는 또한 비기술적 기여자가 이러한 역할에 진입하는 장벽을 낮추고자 합니다.

우리는 이전에 이러한 도구에 대한 아이디어에 대해 이야기했으며 아래에서 이에 대한 간략한 업데이트를 제공할 것입니다. 우리 팀이 다가오는 WMF 이사회 선거의 요구 사항을 충족하기 위해 SecurePoll을 정밀 검사하기 위해 노력하고 있기 때문에 지난 몇 개월 동안 이러한 도구에 대한 진행이 더뎠다는 점에 유의하세요.

IP 정보 기능

 
IP 정보 목업

우리는 조사에서 일반적으로 찾는 IP 주소에 대한 중요한 정보를 표시하는 도구를 구축하고 있습니다. 일반적으로 점검자, 관리자 및 검사관 사용자는 외부 웹사이트에 의존하여 이 정보를 제공합니다. 우리는 웹사이트 내에서 신뢰할 수 있는 IP 공급업체의 정보를 통합하여 이 프로세스를 더 쉽게 만들 수 있기를 바랍니다. 우리는 최근에 프로토타입을 만들고 우리의 접근 방식을 검증하기 위해 사용자 테스트를 수행했습니다. 우리는 인터뷰 집한의 편집자 대부분이 이 도구가 도움이 되며 앞으로 사용하고 싶다고 밝혔습니다. 프로젝트 페이지에 여러분의 관심을 끌고 싶은 업데이트가 있습니다. 프로젝트 토론 페이지에서 피드백을 받고 싶은 주요 질문:

  • "IP를 조사할 때 어떤 정보를 찾는가? 이 정보를 찾을 때 어느 페이지에 있을 가능성이 높습니까?"
  • "어떤 종류의 IP 정보가 가장 유용하다고 생각하십니까?"
  • "어떤 종류의 IP 정보가 공유될 때 익명의 편집자를 위험에 빠뜨릴 수 있다고 생각합니까?"

편집자 매칭 기능

이 프로젝트는 이전 대화에서 "주변 편집자" 및 "다중계정 감지"라고도 했습니다. 우리는 다중계정이라는 단어를 이해하지 못하는 사람들도 이해할 수 있는 적절한 이름을 찾으려고 노력하고 있습니다.

저희는 이 프로젝트의 초기 단계에 있습니다. 위키미디어 재단 연구팀이 두 편집자가 유사한 편집 행동을 보일 때 감지하는 데 도움이 될 수 있는 프로젝트를 진행하고 있습니다. 이는 서로 다른 자동 생성된 계정 사용자 이름으로 편집할 때 서로 다른 등록되지 않은 편집자를 연결하는 데 도움이 될 것입니다. 저희는 1년 전에 이 프로젝트에 대해 논의하기 시작했을 때 많은 지원을 받았다는 소식을 들었습니다. 또한 이러한 기능을 개발하는 데 따르는 위험에 대해서도 들었습니다. 저희는 가까운 시일 내에 프로토타입을 만들어 커뮤니티와 공유할 계획입니다. 이 프로젝트에 대한 영양실조 프로젝트 페이지가 있습니다. 곧 업데이트가 있기를 바랍니다. 이 프로젝트에 대한 여러분의 생각은 프로젝트 토론 페이지에서 매우 환영합니다.

앞서 언급했듯이 우리의 가장 중요한 목표는 우리 커뮤니티에 더 나은 문서 훼손 방지 도구를 제공하여 문서 훼손 행위자에게 더 나은 중재 경험을 제공하는 동시에 IP 주소 문자열의 가치를 낮추는 것입니다. 이렇게 하는 또 다른 중요한 이유는 IP 주소가 이해하기 어렵고 기술에 정통한 사용자에게만 매우 유용하기 때문입니다. 이는 IP 주소 작업에 대해 더 높은 학습 곡선이 있기 때문에 기술적 배경이 없는 신규 사용자가 기능적 역할에 진입하는 데 장벽을 만듭니다. 우리는 사전 지식 없이 누구나 사용할 수 있는 중재 도구를 가질 수 있기를 바랍니다.

우리가 집중하기로 결정한 첫 번째 일은 검사관 도구를 보다 유연하고 강력하며 사용하기 쉽게 만드는 것이었습니다. 이는 많은 우리 프로젝트에서 나쁜 행위자(특히 장기간 남용자)를 감지하고 차단하는 데 필요한 중요한 도구입니다. 검사관 도구는 수년 동안 잘 유지되지 않았으며 결과적으로 상당히 구식으로 보였고 필요한 기능이 부족했습니다.

또한 IP 마스킹이 시행되면 프로젝트에서 검사관 역할을 선택하는 사용자 수가 증가할 것으로 예상했습니다. 이는 사용자를 위한 더 좋고 더 쉬운 검사관 경험의 필요성을 강화했습니다. 이를 염두에 두고 괴롭힘 방지 도구 팀은 지난 1년 동안 검사관 도구를 개선하여 훨씬 더 효율적이고 사용자 친화적으로 만들었습니다. 이 작업은 또한 커뮤니티의 많은 미해결 기능 요청을 고려했습니다. 우리는 이 프로젝트를 진행하는 동안 검사관 및 사무장과 지속적으로 협의했으며 그들의 기대에 부응하기 위해 최선을 다했습니다. 새로운 기능은 2020년 10월 모든 프로젝트에 적용될 예정입니다.

우리가 작업하고 있는 다음 기능은 IP 정보입니다. 우리는 우리 프로젝트의 IP 주소 사용 사례를 좁히는 데 도움이 된 6개의 위키에 대한 회의를 거쳐 이 프로젝트를 결정했습니다. 순찰자가 역할을 효과적으로 수행할 수 있도록 해야 하는 IP 주소가 제공하는 몇 가지 중요한 정보가 일찍부터 명백해졌습니다. 따라서 IP 정보의 목표는 IP 주소에 대한 중요한 정보를 빠르고 쉽게 표시하는 것입니다. IP 주소는 위치, 조직, Tor/VPN 노드가 될 가능성, rDNS, 나열된 범위와 같은 중요한 정보를 제공하며 몇 가지 예를 들 수 있습니다. 모든 사람이 사용할 수 없는 외부 도구 없이 빠르고 쉽게 이를 표시할 수 있으므로 점검자들이 보다 쉽게 ​​작업을 수행할 수 있기를 바랍니다. 제공된 정보는 익명의 사용자를 위험에 빠뜨리지 않고 표시할 수 있을 만큼 충분히 높은 수준입니다. 동시에 점검자가 IP 주소에 대한 품질 판단을 내릴 수 있는 정보면 충분합니다.

IP 정보 이후에는 유사한 편집기 기능을 찾는 데 중점을 둘 것입니다. 우리는 두 명 이상의 사용자가 매우 유사하게 행동하는 것처럼 보일 때 사용자 행동을 비교하고 플래그를 지정하기 위해 검사관과 협력하여 구축되고 과거 검사관 데이터에 대해 훈련된 기계 학습 모델을 사용할 것입니다. 모델은 사용자가 어떤 페이지에서 활동하는지, 쓰기 스타일, 편집 시간 등을 고려하여 두 사용자가 얼마나 유사한지 예측합니다. 우리는 모델이 가능한 한 정확한지 확인하기 위해 실사를 하고 있습니다.

일단 준비가 되면 그러한 모델이 할 수 있는 많은 범위가 있습니다. 첫 번째 단계로 검사관이 많은 수작업을 수행하지 않고도 양말을 쉽게 감지할 수 있도록 출시할 것입니다. 앞으로 이 도구를 더 많은 사람들에게 노출하고 악의적인 다중계정 및 허위 정보 캠페인을 탐지하는 데 적용할 수 있는 방법에 대해 생각할 수 있습니다.

도구에 대한 우리의 프로젝트 페이지에서 더 많은 것을 읽고 의견을 남길 수 있습니다.

연구

IP 마스킹 영향 보고서

IP 주소는 관련 사용자가 쉽게 조작할 수 없는 반신뢰할 수 있는 부분 식별자로 가치가 있습니다. 공급자 및 장치 구성에 따라 IP 주소 정보가 항상 정확하거나 정확한 것은 아니며 IP 주소 정보를 최대한 활용하려면 깊은 기술 지식과 유창함이 필요하지만 현재 관리자는 접근 권한을 갖기 위해 그러한 유창함을 입증할 필요가 없습니다. 이 기술 정보는 가능한 경우 추가 정보("행동 지식"이라고 함)를 지원하는 데 사용되며 IP 주소에서 가져온 정보는 취해진 관리 조치 과정에 상당한 영향을 미칩니다.

 
IP 마스킹이 우리 커뮤니티에 미칠 영향에 대한 위키미디어 재단 지원 보고서입니다.

사회적 측면에서 등록되지 않은 사용자의 편집을 허용할지 여부에 대한 문제는 광범위한 토론의 주제였습니다. 지금까지 등록되지 않은 사용자가 편집할 수 있도록 허용하는 측면에서 오류가 발생했습니다. 논쟁은 일반적으로 유사 익명 편집 기능을 유지하고 편집 장벽을 낮추는 것과 비교하여 문서 훼손 행위를 중단하려는 열망을 중심으로 이루어집니다. ORES와 같은 도구에서 알고리즘 편향으로 나타나는 문서 훼손 행위와 연관되어 등록되지 않은 사용자에 대한 편견이 있습니다. 또한, 등록되지 않은 사용자와 대화를 시도할 때 주요 통신 문제가 있습니다. 주로 알림이 부족하고 동일한 사람이 해당 IP 대화 페이지로 전송된 메시지를 읽을 것이라는 보장이 없기 때문입니다.

IP 마스킹의 잠재적 영향 측면에서 관리자 워크플로에 상당한 영향을 미치고 단기적으로 검사관의 부담을 증가시킬 수 있습니다. IP 주소가 마스킹되면 관리자가 문서 훼손을 관리하는 능력이 크게 저하될 것으로 예상해야 합니다. 이것은 동등하거나 더 큰 기능을 가진 도구를 제공함으로써 완화될 수 있지만, 우리는 감소된 관리자 효율성으로 표시되는 과도기를 예상해야 합니다. 관리자의 작업에 적절한 도구 지원을 제공하기 위해 현재 IP 정보가 수행하는 다음 기능을 보존하거나 대안을 제공하도록 주의해야 합니다.

  • 차단 효능 및 담보 추정
  • 지리적 유사성, 특정 기관(예: 고등학교 또는 대학에서 편집한 경우)과 같이 등록되지 않은 사용자 간의 유사성 또는 패턴을 표면화하는 방법
  • 특정 범위 내에서 IP를 점프하는 파손자 등 등록되지 않은 사용자의 특정 그룹을 대상으로 하는 기능
  • 위치 또는 기관별 조치(반드시 차단할 필요는 없음) 예를 들어, 편집이 공개 프록시에서 수행되는지 또는 학교나 공공 도서관과 같은 공공 장소에서 수행되는지 확인하는 기능.

등록되지 않은 사용자의 임시 계정 또는 식별자를 처리하는 방법에 따라 등록되지 않은 사용자와의 커뮤니케이션을 개선할 수 있습니다. 등록되지 않은 편집, 익명의 문서 훼손 및 등록되지 않은 사용자에 대한 편견에 대한 기본 토론과 우려는 로그아웃한 동안 프로젝트 편집 기능을 유지한다면 IP를 마스킹하더라도 크게 변경되지 않을 것입니다.

검사관 워크플로

우리는 새로운 특수:탐지 도구를 설계하는 프로세스 전반에 걸쳐 여러 프로젝트에서 검사관을 인터뷰했습니다. 실제 사례에 대한 인터뷰와 연습을 기반으로 일반적인 검사관 워크플로를 5개의 섹션으로 분류했습니다:

  • 분류: 타당성과 복잡성에 대한 사례 평가.
  • 프로파일링: 여러 계정 뒤에 있는 사용자를 식별하는 행동 패턴을 만듭니다.
  • 확인 과정: 검사관 도구를 사용하여 IP 및 사용자 에이전트를 검사합니다.
  • 판정: 어떤 종류의 관리 조치를 취해야 하는지에 대한 최종 결정을 내리기 위해 이 기술 정보를 프로파일링 단계에서 설정된 행동 정보와 일치시킵니다.
  • 종결: 필요한 경우 공개 및 비공개 플랫폼에 대한 조사 결과를 보고하고 향후 사용을 위해 정보를 적절하게 보관합니다.

우리는 또한 T&S로 에스컬레이션되는 위키미디어 재단 조사 및 사례에 검사관 도구가 어떻게 영향을 미치는지 이해하기 위해 신뢰 및 안전 팀의 직원과 협력했습니다.

가장 일반적이고 명백한 문제점은 모두 검사관 도구의 직관적이지 않은 정보 표시와 새 탭에서 모든 단일 링크를 열어야 하는 필요성과 관련된 것입니다. 이로 인해 탭 확산이 빠르게 처리되지 않아 엄청난 혼란이 발생했습니다. 설상가상으로 검사관이 표시하는 정보는 고도로 기술적이고 언뜻 이해하기 쉽지 않아 탭을 추적하기 어렵습니다. 모든 인터뷰 대상자는 정보를 추적하기 위해 별도의 소프트웨어나 물리적 펜과 종이에 의존했다고 말했습니다.

또한 영어 위키백과의 다중계정 탐지 페이지에 대한 몇 가지 기본 분석을 실행하여 처리하는 케이스 수, 거부된 케이스 수, 보고서에 포함된 다중계정 수에 대한 기준 측정지표를 얻었습니다.

IP 주소의 점검자 사용

우리 프로젝트의 점검에 대한 이전 연구는 일반적으로 점검자의 작업량 또는 워크플로에 중점을 두었습니다. 가장 최근에 위키백과의 점검 연구는 순찰자의 워크플로와 현재의 문서 훼손 방지 관행에 대한 잠재적 위협 식별에 중점을 둡니다. 새로운 페이지 점검 설문조사점검자 작업 부하 연구와 같은 이전 연구는 영어 위키백과에 중점을 두었습니다. 또한 점검자의 작업량, 특히 봇 점검 도구가 점검자의 작업량에 어떤 영향을 미쳤는지 살펴봅니다.

우리 연구는 5개의 대상 위키에서 모집하려고 했습니다

  • 일본어 위키백과
  • 네덜란드어 위키백과
  • 독일어 위키백과
  • 중국어 위키백과
  • 영어 위키인용집

그들은 IP 편집에 대한 알려진 태도, IP에 의한 월간 편집 비율 및 IP 편집자가 직면한 기타 독특하거나 비정상적인 상황(즉, 보류 중인 변경 기능의 사용 및 프록시의 광범위한 사용)에 대해 선택되었습니다. 참가자는 사랑방 또는 이에 상응하는 지역의 공개 전화를 통해 모집되었습니다. 가능한 경우 위키 대사관 페이지에도 게시했습니다. 불행히도 인터뷰 자체에 대한 통역 지원은 있었지만 낮은 응답률을 설명할 수 있는 메시지에 대한 번역 지원을 확장하지 않았습니다. 모든 인터뷰는 메모 작성자와 함께 줌(Zoom)을 통해 진행되었습니다.

이전 연구의 결과를 뒷받침하는 '우리는 IP 정보의 체계적이고 통일된 사용을 찾지 못했습니다. 또한 이 정보는 의심의 특정 임계값 이후에만 검색되었습니다. 의심스러운 사용자 활동에 대한 대부분의 추가 조사는 이전 로컬 편집, 글로벌 기여 확인 또는 이전 차단 찾기와 같이 공개적으로 사용 가능한 위키 정보로 시작됩니다.

엄밀성과 정확성은 IP 정보에 대해 덜 중요한 품질입니다. 한 선택된 IP 정보 사이트가 동일한 IP 주소의 지리적 위치에 대해 세 가지 다른 결과를 반환한 것을 보고 한 인터뷰 대상자는 위치의 엄밀성이 일관성만큼 중요하지 않다고 언급했습니다. 즉, IP 주소가 한 국가의 것으로 일관되게 노출되는 한 정확하거나 정확하지 않은 것이 중요하지 않았습니다. 이것은 IP 주소 정보가 사용되는 방식에 대한 우리의 이해와 일치합니다. 즉, 단일 장치 또는 개인과 관련된 반고유한 정보로, 일반 사람이 스푸핑하기 상대적으로 어렵습니다. 이용자에게 첨부된 정보의 엄밀성이나 정확성은 그것이 첨부되어 변경이 어렵다는 사실보다 덜 중요합니다.

우리의 조사 결과는 IP 정보 도구의 몇 가지 주요 설계 측면을 강조합니다:

  • 원시 데이터에 대한 요약 결론 제공
  • IP 정보의 주요 측면을 다룹니다:
    • 지리적 위치(가능한 경우 도시 또는 지구 수준)
    • 등록 기관
    • 연결 유형(데이터 센터 또는 모바일 네트워크와 같은 높은 트래픽 대 주거용 광대역과 같은 낮은 트래픽)
    • 이진 예 또는 아니오로 프록시 상태

윤리적인 관점에서 결론에 도달한 방법과 IP 정보를 가져오는 데 내재된 비정밀성 또는 부정확성을 설명할 수 있는 것이 중요할 것입니다. 이것이 우리가 이야기한 점검대원들에게는 주요 관심사가 아니었지만, 관리 조치에 대한 정당성을 제공하는 데 사용할 도구를 만들려면 우리 도구의 한계가 무엇인지 분명히 해야 합니다.

––
안부를 전하며,
신뢰 및 안전 제품

해당 문제에 대한 토론은 프로젝트 토론 페이지를 이용하시기 바랍니다. 이 릴리스와 관련된 문제가 있는 경우 주저하지 말고 프로젝트 토론 페이지에 메시지를 남기거나 시몬 그라바르추크에게 문의하세요.