추상 위키백과/업데이트/2021-09-17

This page is a translated version of the page Abstract Wikipedia/Updates/2021-09-17 and the translation is 100% complete.
Other languages:
716-newspaper.svg 추상 위키백과 업데이트 Translate

메일링 리스트를 통한 추상 위키백과 IRC의 추상 위키백과 텔레그램의 위키함수 트위터의 위키함수 페이스북의 위키함수 유튜브의 위키함수 위키함수 웹사이트 Translate

"어휘와 패러다임"

지난 주에 우리는 위키함수에서 패러다임을 구현하는 방법에 대해 논의했습니다. 이번 주에는 이것을 어떻게 사용할 수 있는지에 대한 몇 가지 아이디어를 논의해 보겠습니다.

어쨌든 위키데이터의 사전 데이터에서 다양한 형식을 모두 수집하고 있다는 점을 감안할 때 이것이 왜 유용한지 물을 수 있습니다. 위키데이터에 전체 양식 세트가 있다면 양식을 생성할 필요가 없겠죠?

몇 가지 가능한 사용 사례가 있습니다;

첫째, 우리는 아마도 모든 언어로 된 모든 형식의 위키데이터에서 완전한 범위를 달성하지 못할 것입니다. 일부 언어에서는 양식 수가 엄청나게 많을 수 있으며 다른 모든 사전과 마찬가지로 저장할 양식을 선택해야 할 수도 있습니다. 종종 저장되지 않은 양식은 매우 규칙적입니다.

둘째, 우리가 아주 좋은 범위를 가지고 있더라도 때때로 사전에 없는 단어를 도입해야 할 것입니다. 신조어를 표시할 때, 다른 문법 범주에서 변환하여 새 어휘를 생성할 때(예를 들어, 영어로 명사 동사 또는 지명어를 만들기 위해 지명), 또는 다른 언어의 차용어를 사용할 때. 다행히도 그러한 단어는 종종 규칙적이며 지난 시간에 설명된 스마트 패러다임을 갖는 것은 우리를 꽤 멀리 데려갈 수 있습니다.

셋째, 패러다임은 위키데이터에서 실제 어휘에 연결하는 데 사용될 수 있습니다. 예를 들어, "cat"과 같은 어휘에서 우리는 지난 주에 개발한 패러다임에 연결할 수 있습니다. s 추가 함수 또는 영어 정규 복수형 함수입니다. 어휘를 함수와 연결하면 개별 양식을 다시 생성할 수 있으며, 이는 다시 정확성을 검사할 수 있어 데이터 품질을 보장할 수 있음을 의미합니다. 영어의 일반 복수형 함수는 "pasty"의 복수형이 "pasties"여야 한다고 알려줄 수 있지만, 위키데이터 어휘집은 이전에 "pastiest"로 정의했습니다. "strawman"의 복수형은 "strawman"이 아니라 "strawmen"이어야 합니다. "Frenchwoman"의 복수형은 "Frenchwoman"이 아니라 "Frenchwomen"이어야 합니다.

한 가지 질문은: 양식을 생성할 수 있는 패러다임이 있다면 애초에 위키데이터에 양식을 만들고 저장하는 이유가 무엇입니까? 이는 훌륭한 질문이며 커뮤니티에서 실제로 재검토할 수 있는 결정입니다. 개인적으로 위키데이터에 명시적으로 저장된 형식과 생성적 패러다임이 모두 필요하다고 생각합니다. 전자가 없으면 불규칙한 형식을 처리하는 방법이 명확하지 않습니다. 패러다임에 책임이 있습니까? 지저분해 보입니다. 마찬가지로, 예를 들어 어휘집이 수천 개의 가능한 형태를 가질 때 패러다임은 중요합니다. 이러한 형태가 항상 규칙적이라면 커뮤니티는 그것들을 모두 구체화하지 않기로 결정할 수 있습니다. 특히 많은 어휘집이 동일한 규칙적인 형태학적 패턴을 고수하는 경우 더욱 그렇습니다.

이것은 영어 명사의 경우도 마찬가지인 것 같습니다. 위키데이터에 있는 거의 모든 영어 명사는 두 가지 형태를 가지고 있습니다. 비록 누군가는 영어 명사가 네 가지 형태(소유격 형태 포함)를 가지고 있다고 주장할 수 있지만; 그러나 영어 소유격 형태는 너무 규칙적으로 생성되어 지금까지 위키데이터 기여자가 필요하지 않다고 생각하고 일반적으로 생략하는 것 같습니다.

넷째, 패러다임을 사용하여 데이터를 입력할 때 시작점을 제안할 수도 있습니다. 위키데이터 어휘소 형태를 사용하면 보조 정리가 주어지면 항목에 대해 가능한 모든 형식을 생성하는 위키함수에서 함수를 선택할 수 있다고 상상해 보세요. 사전 양식 도구는 이미 사전 작성을 상당히 개선하여 항목을 훨씬 더 일관성 있고 확장할 수 있게 했습니다. 또한 대부분의 양식을 자동으로 생성할 수 있다면 데이터 입력 속도가 크게 향상되고 동시에 데이터 입력 오류 가능성이 줄어듭니다.

이러한 모든 즉각적인 개선 외에도 더 많은 이점이 있을 수 있습니다. 예를 들어, 패러다임을 사용하는 경우 오프라인 사전을 저장하는 데 훨씬 적은 저장 공간이 필요합니다. 현재 자원이 부족한 언어에 대한 패러다임을 개발하면 해당 언어로 작업하는 데 도움이 될 수 있습니다. 언어 전반에 걸친 패러다임의 지식 기반을 갖는 것은 언어 연구의 관점에서 흥미로울 수 있습니다.

위키함수가 시작되면 커뮤니티에서 형태학적 패러다임의 라이브러리와 위키데이터의 사전 데이터와의 연결을 개발할 수 있기를 바랍니다. 이것은 추상 위키백과로 가는 길에 매우 도움이 되는 단계일 뿐만 아니라 위키데이터의 사전 데이터 콘텐츠를 상당히 확장할 것이라고 생각합니다. 이는 - 위키낱말사전 내에서 사전 데이터에 대한 접근을 가능하게 하는 것과 함께 - 위키낱말사전, 특히 소규모 위키낱말사전과 모든 위키낱말사전에서 기여자가 적은 언어에 대한 기여자에게 상당한 권한을 부여하는 데 도움이 될 것입니다.

위키데이터에서 소유격이 있는 영어 명사에 대한 EntitySchema E327을 생성한 User:YULdigitalpreservation, 낫위키람다에 프랑스어 복수 형태를 생성한 User:VIGNERON, 이에 대해 협력한 User:Strobilomyces에게 감사드립니다.