추상 위키백과/업데이트/2021-02-10

This page is a translated version of the page Abstract Wikipedia/Updates/2021-02-10 and the translation is 100% complete.
716-newspaper.svg 추상 위키백과 업데이트 Translate

메일링 리스트를 통한 추상 위키백과 IRC의 추상 위키백과 텔레그램의 추상 위키백과 트위터의 추상 위키백과 페이스북의 추상 위키백과 유튜브의 추상 위키백과 추상 위키백과 웹사이트 Translate

추상 위키백과의 목표는 표현할 콘텐츠의 추상적인 표현에서 자연어 텍스트를 생성하는 것입니다. 이를 위해 위키데이터의 사전식 데이터를 사용합니다. 그리고 우리가 텍스트를 생성할 수있는 것과는 거리가 멀지 만 모든 사람의 도움을 장려하고 싶은 한 가지는 위키데이터에 있는 사전식 데이터의 범위와 완전성입니다.
오늘 우리는 사람들이 위키데이터의 사전식 데이터 범위에 대한 이해를 시각화하고, 예시하고, 더 잘 안내하는 데 도움이되는 두 가지 도구의 프로토 타입을 제시하고자합니다.

주석 인터페이스

첫 번째 프로토 타입은 사용자가 어떤 언어로든 문장에 주석을 달 수있는 주석 인터페이스로, 각 단어 또는 표현을 형식 및 감각 선택을 포함하여 위키데이터의 어휘소와 연결합니다

다음 스크린 샷에서 예시를 볼 수 있습니다.

 
위키데이터를 사용하는 주석 도구의 스크린 샷.

여기 문장의 각 "단어"는 어휘소(단어 바로 아래에 어휘소 ID L31818이 표시됨)과 함께 기본형과 언어 및 품사로 주석 처리됩니다. 그런 다음 선택되면 컨텍스트에서 사용되는 특정 양식이 나타납니다. 예를 들어 "존엄성"에서 어휘소 단수 양식인 양식 ID L31818#F1이 표시됩니다. 마지막으로 의미 ID L31818#S1이 할당되고 주석에 의해 정의된 의미가 표시됩니다.

언제든지 주석을 제거하거나 새 주석을 추가할 수 있습니다. 일부 선택 사항은 위키데이터에 직접 연결됩니다. 예를 들어 여러분이 특정 어휘소에 의미가 없거나 필요한 의미가 없기 때문에 의미를 추가하려는 경우 위키데이터로 이동하여 정상적인 방식으로 수행할 수 있습니다 거기에 추가되면 다시 돌아와 새로 추가된 의미를 선택할 수 있습니다.

프로토 타입의 사용자 인터페이스가 약간 느리므로 작업을 시작할 때 몇 초 정도 기다리세요. 다른 언어로 즉시 작동해야합니다. 범용 언어 선택기는 여러분이 언어를 변경하는 데 사용할 수 있습니다(페이지 상단). 의미의 주석은 어휘소의 언어로만 제공되는 경우가 많으며 UI는 아직 언어 대체물이 되지 않으므로 독일어 UI로 영어 문장을 보면 누락된 용어집을 찾을 수 있습니다.

기술적으로 이것은 바닐라 미디어위키 설치 위에 자바 스크립트와 CSS로 완전히 구현된 프로토 타입입니다. 이는 이러한 시스템에 대한 최상의 기술 솔루션은 아니지만 잠재적인 재구현을 위해 도구에 사용자 관심이 있는지 확인하는 데 도움이됩니다. 또한 입력 문장에 대한 어휘소와 의미 및 형식 선택을 제공하기 위해 다른 그룹에서 구현할 수있는 API에 동의하는 것은 흥미로운 작업이 될 것입니다 여기의 현재 기준은 매우 간단하며 자동화된 태그 지정 시스템에는 충분하지 않습니다. 여러 언어로 된 많은 문장에 이것을 사용할 수 있으면 자연어 이해 시스템을 훈련시키는 데 훌륭한 말뭉치가 될 수 있습니다. 그 위에 구축할 수 있는 것이 많이 있습니다.

이 프로토 타입의 목표는 사전식 데이터의 적용 범위와 관련하여 위키데이터 공동체의 진행 상황을 보다 가시적으로 만드는 것입니다. 어떤 쓰여진 언어로든 문장을 가져 와서 이 시스템에 입력하고 주석으로 얼마나 완벽하게 얻을 수 있는지 알아낼 수 있습니다. 위키데이터의 사전식 데이터에 대한 일화적 경험을 보여주고 생성하는 방법입니다.

프로토 타입 주석 인터페이스는 annotation.wmcloud.org에 있습니다.
여러분은 여기에서 토론할 수 있습니다: annotation.wmcloud.org/wiki/Discussion (해당 위키에서 새 계정을 만들어야합니다).

말뭉치 범위 대시 보드

두 번째 프로토 타입 도구는 40개 언어로 된 위키백과 말뭉치와 비교한 데이터 범위를 보여주는 대시 보드입니다.

작년에 구글 리서치에서 이전 직책을 맡았을 때 약 40개의 위키백과 언어판의 정리된 텍스트로 언어 모델을 구축하고 게시 한 출판물을 공동 저술했습니다.[1] 언어 모델 외에도 원시 데이터도 게시했습니다: 이 텍스트는 여러 기능에 텍스트를 통합하기 위해 구글이 위키백과 텍스트에 사용하는 전처리 시스템에 의해 정리되었습니다. 따라서 이 데이터 묶음은 비교적 깨끗한 자연어 텍스트로 구성됩니다. 확실히 원시 위키 텍스트와 비교할 때 - 여전히 많은 인공물을 포함하고 있습니다. 만일 우리가 사용할 수 있는 더 나은 대규모 백과사전 텍스트 말뭉치를 알고 있다면 더 나은 위키백과 버전이나 더 많은 언어를 다루는 버전을 알고 있으면 알려주세요.

우리는 "TensorFlow" 모델에서 이러한 텍스트를 추출했습니다. 우리는 다운로드를 위해 추출 된 텍스트를 제공합니다. 텍스트를 토큰으로 분할하고 단어 발생 횟수를 세고 위키데이터의 사전 식 데이터에서 해당 언어의 어휘소 형태에 나타나는 토큰의 수를 비교했습니다. 만일 이것이 유용하다고 판명되면 정리된 텍스트를 더 영구적인 집으로 옮길 수 있습니다.

현재 상태의 영어 스크린 샷이 여기에 제공됩니다.

 
위키데이터 사전식 커버리지 대시 보드의 스크린 샷.

위키데이터에서 이 언어에 사용할 수있는 양식의 수를 확인하고 위키백과에서 증명 된 다양한 양식의 수(즉, 주어진 언어의 위키백과에 있는 단어 또는 단어 유형의 수)를 확인합니다. 토큰 수는 주어진 언어 말뭉치에 있는 총 단어 수입니다. 포함된 양식은 말뭉치의 양식 중 몇 개가 위키데이터의 어휘소 묶음에도 있는지를 나타내며, 포함된 토큰은 해당 항목의 수를 알려줍니다(따라서 영어 위키백과에서 "시간"이라는 단어가 100번 나타나는 경우 계산됩니다. 하나의 커버된 형태로, 하지만 커버된 토큰 100개). 두 개의 원형 차트는 각각 양식과 토큰의 범위를 시각화합니다.

마지막으로, 아직 위키데이터에 없는 수천 개의 가장 빈번한 양식에 대한 링크가 있습니다. 이를 통해 공동체가 신속하게 적용 범위를 늘리는 데 우선 순위를 지정할 수 있습니다. 그러나 진행률 보고서는 수동이며 자동으로 업데이트되지 않습니다. 지금은 수시로 업데이트를 실행할 계획입니다.

프로토 타입 말뭉치 범위 대시 보드는 다음 위치에 있습니다: 위키데이터:언어 범위
여기에서 논의할 수 있습니다: 위키데이터 토론:사전적 범위

도움 필요

두 프로토 타입 도구는 모두 실제 제품이 아닌 프로토 타입입니다. 우리는 이러한 프로토 타입을 더 이상 지원하고 개발하기 위해 노력하지 않았습니다. 동시에 모든 코드와 데이터는 물론 오픈 소스입니다. 만일 이 프로토 타입의 개발 또는 유지 관리를 원하는 사람이 있다면 환영 할 것입니다-알려주세요(제 토론 페이지 또는 이메일 또는 도구 아이디어 페이지로).

또한 누군가가 아이디어를 좋아하지만 다른 구현이 더 낫다고 생각하는 경우 계속 진행하세요. 기꺼이 지원하고 대화를 나눌 수 있습니다. 여기에서 개선해야 할 사항이 많지만, 이 두 프로토 타입이 사전식 데이터 공간에서 콘텐츠와 도구의 더 많은 개발로 이어지기를 바랍니다.

참고

  1. 만디 궈(Mandy Guo), 즈항 다이(Zihang Dai), 데니 브란데치크(Denny Vrandečić), 라미 알알포우(Rami Al-Rfou): Wiki-40B: 다국어 언어 모델 데이터 묶음, LREC 2020.