추상 위키백과/업데이트/2021-05-06
◀ | 추상 위키백과 업데이트 | ▶ |
- 추상 위키백과에서 위키데이터의 사전 데이터로의 누락된 링크.
2018년에 위키데이터는 사전 지식을 수집하는 프로젝트를 시작했습니다. 그 이후로 수십만 개의 어휘소가 생성되었으며 올해 독일 위키미디어협회는 위키데이터의 사전식 지식을 보다 쉽게 생성하고 유지 관리 할 수 있도록 도구를 추가로 개발할 것입니다.
위키데이터에 대한 사전적 확장은 추상 위키백과가 된 목표를 염두에 두고 개발되었지만 공동체 내에서 최근 논의한 결과 이 두 부분 사이의 가능한 연결을 아직 명확하게 만들지 못했다는 것을 보여주었습니다. 오늘은 추상 위키백과와 위키데이터의 사전 데이터가 함께 작동하는 방법에 대한 몇 가지 아이디어를 스케치하고 싶습니다.
사전을 구성하는 두 가지 주요 방법이 있습니다: '어휘' 또는 '단어'로 항목을 구성하고 의미를 설명(이것을 의미론적 접근이라고합니다)하거나 '감각' 또는 '의미'로 항목을 구성하는 것(이것을 표현론적 접근이라고합니다)입니다. 위키데이터는 의도적으로 의미론적 접근 방식을 선택했습니다. 위키데이터의 항목은 어휘소라고하며 기여자는 의미 및 형식을 어휘소에 추가 할 수 있습니다. 의미는 어휘소가 정기적으로 호출할 수 있는 다양한 의미를 나타내며 형식은 어휘소가 자연어 텍스트로 표현될 수있는 다양한 방식입니다. 올바른 문법 번호와 대소 문자, 시제 등과 일치하기 위해. 따라서 어휘소 "mouse"(L1119)는 작은 설치류와 컴퓨터 입력 장치라는 두 가지 의미를 가지고 있고, "mouse"와 "mice"라는 두 가지 형식을 갖고 있습니다. 다국어 의성어 협업 사전의 예를 들어, 주로 (현재 51,000개 이상)정의된 의미를 중심으로 구성되어있는 오메가위키(OmegaWiki)를 살펴볼 수 있으며 이러한 의미가 서로 다른 언어로 어떻게 표현되는지 확인할 수 있습니다.
위키데이터는 의미론적 접근 방식을 선택한 이유는 크라우드 소싱 협업 프로젝트의 경우 훨씬 간단하고 논쟁의 여지가 훨씬 적다는 관찰에 근거합니다. 같은 말뭉치에서 언급된 모든 의미의 목록을 수집하는 것보다 말뭉치에서 사용 된 단어 목록을 수집하는 것이 훨씬 쉽습니다. 그리고 그것은 '더 단순'하지만 여전히 사소한 것은 아닙니다. 우리는 여전히 각 어휘소에 대한 의미 목록을 수집하고 싶고, 이러한 의미 사이의 연결을 설명하려고합니다. 언어의 두 어휘소가 동일한 의미를 갖고 있는지, 의미가 위키데이터의 대규모 항목 카탈로그와 어떻게 관련되는지, 다른 언어의 의미는 서로 관련되어 있습니다. 위키데이터 공동체가 여전히 씨름하고있는 매우 어려운 질문입니다(이해하기에 대한 에세이 참조).
예를 살펴 보겠습니다.
"스텁스(Stubbs)는 아마도 세계 역사상 가장 어린 시장 중 한 명일 것입니다. 그는 3개월 6일의 나이에 알래스카 탈케이나의 시장이 되었고 거의 4년 전 사망 할 때까지 그 직위를 유지했습니다 또한 스텁스는 고양이였습니다."
마지막 문장인 "스텁스는 고양이었습니다"를 표현하려면 cat의 의미를 표현할 수 있어야합니다(주어진 작은 대문자 의미론; 여기서는 어휘 수준에 전적으로 초점을 맞추고 문법 및 관용적 문제에 대해서는 논의하지 않을 것입니다; 우리는 다른 날을 위해 그것들을 남겨 둘 것입니다). 추상적인 내용에서 고양이에 대한 아이디어를 어떻게 참조하나요? 어떻게하면 영어로 결국 "cat" (L7-F4)이라는 단어로 끝날까요? 프랑스어로 "chat" (L511-F4)이라는 단어? 그리고 독일어로는 "Kater" (L303326-F1)이라는 단어?
이 세 단어는 일반적으로 동일한 의미를 갖지 "않습니다". 영어 단어 cat은 수컷 또는 암컷 고양이를 똑같이 나타냅니다; 프랑스어 단어는 일반적으로 고양이를 지칭 할 수있는 반면, 예를 들어 스텁스(Stubbs)의 성별을 모를 경우 단어는 수컷이지만 암컷 고양이는 일반적으로 "샤트(chatte)"라는 단어를 사용하여 참조됩니다. 반면에 독일어는 수컷 고양이만을 의미 할 수 있습니다. 스텁스가 수컷인지 암컷인지 모를 경우 독일어로 "Katze"라는 단어를 대신 사용해야하는 반면, 프랑스어에서는 "chat"를 사용합니다 그리고 영어에는 수컷 고양이에 대한 단어 "tom" 또는 "tomcat"도 있지만 이들은 훨씬 덜 자주 사용됩니다. 웹에서 "Stubbs is a cat"을 검색하면 10,000개 이상의 검색되지만 "Stubbs is a tom" 또는 "Stubbs is a tomcat"은 하나도 검색되지 않습니다.
그에 비해 우주에서 처음이자 지금까지 유일한 고양이인 Félicette의 경우 문서는 실제로 프랑스어로 "chatte", 독일어로 "Katze"라는 단어를 사용합니다.
여기서 우리는 다소 밀접하게 관련된 세 가지 언어에 대해 이야기하고 있으며, 다소 단순한 명사에 대해 이야기하고 있습니다. 이것은 매우 간단한 경우였어야하지만 그렇지 않습니다. 더 복잡한 개념(예를 들어, 다른 종류의 인간 정착지 또는 인체 부위가 다른 언어로 개념화되는 다른 방식, 예를 들어 팔과 손, 색상에 관한 용어)에 대해 동사와 형용사 또는 명사에 대해 이야기하면 훨씬 더 복잡해집니다. 추사 위키백과에서 사용하려는 모든 단어의 의미를 먼저 정렬해야한다면 중요한 경로에 매우 어려운 작업이 될 것입니다. 그래서 추상 위키백과가 표현론적 접근 방식을 따랐다면 실제로 도움이 되었을 것이지만(종합적인 의미 카탈로그를 갖는 것이 얼마나 좋을까요!), 그 접근 방식은 너무 어려웠고 대신 의미론적 접근 방식이 선택되었습니다.
다행히도 의미 목록은 필요하지 않습니다. 이를 피할 수있는 방법은 추상 위키백과가 텍스트를 생성하기만하면 되고 구문을 분석하거나 이해할 수 없기 때문입니다. 이를 통해 각 언어에 대해 렌더러를 사용하여 정확한 단어(또는 다른 어휘 표현)를 선택하는 생성자를 사용할 수 있습니다. 예를 들어, 동물의 종류와 품종, 색상, 성체인지 여부, 중성화 여부, 성별, 수 등 몇 가지 선택적인 추가 정보를 취할 수있는 생성자를 가질 수 있습니다. 이러한 각 정보에 대해 해당 정보가 렌더링에 표현되어야하는지 또는 이 정보가 선택 사항이며 무시할 수 있는지 여부를 표시 할 수 있으며, 따라서 해당 렌더러가 가장 적절한 단어를 선택하는 데 사용할 수있는 항목을 표시 할 수 있습니다. 이는 공동체에 이를 수행하는 방법을 알려주는 것이 아니라 의미 카탈로그에 의존하지 않는 한 가지 가능한 접근 방식을 스케치하는 것뿐입니다.
그러면 각 언어 렌더러는 정확한 단어를 선택하는 데 필요한 정보를 사용할 수 있습니다. 언어가 성별(예를 들어, 독일어)을 선호하는 경우 그렇게 할 수있는 반면, 선호하지 않는 언어(예를 들어, 영어)는 그렇게 할 수 있습니다. 언어의 경우 고양이의 나이가 단어 선택에 중요한 경우 검색 할 수 있습니다. 동물의 색이 중요한 경우(독일어의 말과 마찬가지로) 해당 렌더러가 정보를 사용할 수 있습니다. 필수 정보가 누락 된 경우 이를 유지 관리 대기열에 추가하여 기여자가 채울 수 있습니다. 언어에서 단어가 없어야 하는 경우 다른 명사 구를 선택할 수 있습니다. 예를 들어, "동물(animal)"이나 "애완 동물(pet)"과 같이 덜 구체적인 단어 또는 "수컷 새끼 고양이(male kitten)"와 같은 구, 또는 독일어에서 "검은 말(black horse)"을 의미하는 "Rappen"과 같은 단어.
그러나 여기서 중요한 설계 특징은 다른 언어에서 단어의 의미 정렬을 보장하고 동의 할 필요가 없다는 것입니다. 원하는 것을 달성하기 위해 의미 목록이 필요하지 않습니다.
이제 이러한 의미 카탈로그를 갖는 다른 많은 사용 사례가 있습니다. 그것은 엄청난 가치가 있는 리소스가 될 것입니다. 그리고 그러한 카탈로그가 없더라도 위키데이터의 의미와 항목을 연결하는 서술은 렌더러의 생성 및 유지 관리에 매우 유용할 수 있지만 위키백과의 자연 텍스트를 생성 할 때 사용할 필요는 없습니다.
이 제안은 앞에서 말한 것처럼 규범적으로 의도된 것이 아닙니다. 렌더러를 구현하는 방법과 사용할 정보를 결정하는 것은 공동체의 몫입니다. 여기에서는 다양한 언어에 걸쳐 단어를 정렬하는 포괄적인 의미 카탈로그인(귀중하지만 생성하기 매우 어려운) 자원의 가용성을 차단하지 않도록 하는 구조를 그리고 있습니다.