추상 위키백과/업데이트/2021-02-10

추상 위키백과 업데이트

추상 위키백과의 목표는 표현할 콘텐츠의 추상적인 표현에서 자연어 텍스트를 생성하는 것입니다. 이를 위해 위키데이터의 사전식 데이터를 사용합니다. 그리고 우리가 텍스트를 생성할 수있는 것과는 거리가 멀지 만 모든 사람의 도움을 장려하고 싶은 한 가지는 위키데이터에 있는 사전식 데이터의 범위와 완전성입니다.

오늘 우리는 사람들이 위키데이터의 사전식 데이터 범위에 대한 이해를 시각화하고, 예시하고, 더 잘 안내하는 데 도움이되는 두 가지 도구의 프로토 타입을 제시하고자합니다.

주석 인터페이스

첫 번째 프로토 타입은 사용자가 어떤 언어로든 문장에 주석을 달 수있는 주석 인터페이스로, 각 단어 또는 표현을 형식 및 감각 선택을 포함하여 위키데이터의 어휘소와 연결합니다

다음 스크린 샷에서 예시를 볼 수 있습니다.

위키데이터를 사용하는 주석 도구의 스크린 샷.

여기 문장의 각 "단어"는 어휘소(단어 바로 아래에 어휘소 ID L31818이 표시됨)과 함께 기본형과 언어 및 품사로 주석 처리됩니다. 그런 다음 선택되면 컨텍스트에서 사용되는 특정 양식이 나타납니다. 예를 들어 "존엄성"에서 어휘소 단수 양식인 양식 ID L31818#F1이 표시됩니다. 마지막으로 의미 ID L31818#S1이 할당되고 주석에 의해 정의된 의미가 표시됩니다.
언제든지 주석을 제거하거나 새 주석을 추가할 수 있습니다. 일부 선택 사항은 위키데이터에 직접 연결됩니다. 예를 들어 여러분이 특정 어휘소에 의미가 없거나 필요한 의미가 없기 때문에 의미를 추가하려는 경우 위키데이터로 이동하여 정상적인 방식으로 수행할 수 있습니다 거기에 추가되면 다시 돌아와 새로 추가된 의미를 선택할 수 있습니다.
프로토 타입의 사용자 인터페이스가 약간 느리므로 작업을 시작할 때 몇 초 정도 기다리세요. 다른 언어로 즉시 작동해야합니다. 범용 언어 선택기는 여러분이 언어를 변경하는 데 사용할 수 있습니다(페이지 상단). 의미의 주석은 어휘소의 언어로만 제공되는 경우가 많으며 UI는 아직 언어 대체물이 되지 않으므로 독일어 UI로 영어 문장을 보면 누락된 용어집을 찾을 수 있습니다.

기술적으로 이것은 바닐라 미디어위키 설치 위에 자바 스크립트와 CSS로 완전히 구현된 프로토 타입입니다. 이는 이러한 시스템에 대한 최상의 기술 솔루션은 아니지만 잠재적인 재구현을 위해 도구에 사용자 관심이 있는지 확인하는 데 도움이됩니다. 또한 입력 문장에 대한 어휘소와 의미 및 형식 선택을 제공하기 위해 다른 그룹에서 구현할 수있는 API에 동의하는 것은 흥미로운 작업이 될 것입니다 여기의 현재 기준은 매우 간단하며 자동화된 태그 지정 시스템에는 충분하지 않습니다. 여러 언어로 된 많은 문장에 이것을 사용할 수 있으면 자연어 이해 시스템을 훈련시키는 데 훌륭한 말뭉치가 될 수 있습니다. 그 위에 구축할 수 있는 것이 많이 있습니다.

이 프로토 타입의 목표는 사전식 데이터의 적용 범위와 관련하여 위키데이터 공동체의 진행 상황을 보다 가시적으로 만드는 것입니다. 어떤 쓰여진 언어로든 문장을 가져 와서 이 시스템에 입력하고 주석으로 얼마나 완벽하게 얻을 수 있는지 알아낼 수 있습니다. 위키데이터의 사전식 데이터에 대한 일화적 경험을 보여주고 생성하는 방법입니다.

프로토 타입 주석 인터페이스는 annotation.wmcloud.org에 있습니다.
여러분은 여기에서 토론할 수 있습니다: annotation.wmcloud.org/wiki/Discussion (해당 위키에서 새 계정을 만들어야합니다).

말뭉치 범위 대시 보드

두 번째 프로토 타입 도구는 40개 언어로 된 위키백과 말뭉치와 비교한 데이터 범위를 보여주는 대시 보드입니다.

작년에 구글 리서치에서 이전 직책을 맡았을 때 약 40개의 위키백과 언어판의 정리된 텍스트로 언어 모델을 구축하고 게시 한 출판물을 공동 저술했습니다.^[1] 언어 모델 외에도 원시 데이터도 게시했습니다: 이 텍스트는 여러 기능에 텍스트를 통합하기 위해 구글이 위키백과 텍스트에 사용하는 전처리 시스템에 의해 정리되었습니다. 따라서 이 데이터 묶음은 비교적 깨끗한 자연어 텍스트로 구성됩니다. 확실히 원시 위키 텍스트와 비교할 때 - 여전히 많은 인공물을 포함하고 있습니다. 만일 우리가 사용할 수 있는 더 나은 대규모 백과사전 텍스트 말뭉치를 알고 있다면 더 나은 위키백과 버전이나 더 많은 언어를 다루는 버전을 알고 있으면 알려주세요.

우리는 "TensorFlow" 모델에서 이러한 텍스트를 추출했습니다. 우리는 다운로드를 위해 추출 된 텍스트를 제공합니다. 텍스트를 토큰으로 분할하고 단어 발생 횟수를 세고 위키데이터의 사전 식 데이터에서 해당 언어의 어휘소 형태에 나타나는 토큰의 수를 비교했습니다. 만일 이것이 유용하다고 판명되면 정리된 텍스트를 더 영구적인 집으로 옮길 수 있습니다.

현재 상태의 영어 스크린 샷이 여기에 제공됩니다.

위키데이터 사전식 커버리지 대시 보드의 스크린 샷.

위키데이터에서 이 언어에 사용할 수있는 양식의 수를 확인하고 위키백과에서 증명 된 다양한 양식의 수(즉, 주어진 언어의 위키백과에 있는 단어 또는 단어 유형의 수)를 확인합니다. 토큰 수는 주어진 언어 말뭉치에 있는 총 단어 수입니다. 포함된 양식은 말뭉치의 양식 중 몇 개가 위키데이터의 어휘소 묶음에도 있는지를 나타내며, 포함된 토큰은 해당 항목의 수를 알려줍니다(따라서 영어 위키백과에서 "시간"이라는 단어가 100번 나타나는 경우 계산됩니다. 하나의 커버된 형태로, 하지만 커버된 토큰 100개). 두 개의 원형 차트는 각각 양식과 토큰의 범위를 시각화합니다.
마지막으로, 아직 위키데이터에 없는 수천 개의 가장 빈번한 양식에 대한 링크가 있습니다. 이를 통해 공동체가 신속하게 적용 범위를 늘리는 데 우선 순위를 지정할 수 있습니다. 그러나 진행률 보고서는 수동이며 자동으로 업데이트되지 않습니다. 지금은 수시로 업데이트를 실행할 계획입니다.

프로토 타입 말뭉치 범위 대시 보드는 다음 위치에 있습니다: 위키데이터:언어 범위
여기에서 논의할 수 있습니다: 위키데이터 토론:사전적 범위

도움 필요

두 프로토 타입 도구는 모두 실제 제품이 아닌 프로토 타입입니다. 우리는 이러한 프로토 타입을 더 이상 지원하고 개발하기 위해 노력하지 않았습니다. 동시에 모든 코드와 데이터는 물론 오픈 소스입니다. 만일 이 프로토 타입의 개발 또는 유지 관리를 원하는 사람이 있다면 환영 할 것입니다-알려주세요(제 토론 페이지 또는 이메일 또는 도구 아이디어 페이지로).

또한 누군가가 아이디어를 좋아하지만 다른 구현이 더 낫다고 생각하는 경우 계속 진행하세요. 기꺼이 지원하고 대화를 나눌 수 있습니다. 여기에서 개선해야 할 사항이 많지만, 이 두 프로토 타입이 사전식 데이터 공간에서 콘텐츠와 도구의 더 많은 개발로 이어지기를 바랍니다.

참고

↑ 만디 궈(Mandy Guo), 즈항 다이(Zihang Dai), 데니 브란데치크(Denny Vrandečić), 라미 알알포우(Rami Al-Rfou): Wiki-40B: 다국어 언어 모델 데이터 묶음, LREC 2020.