추상 위키백과/업데이트/2021-09-10
◀ | 추상 위키백과 업데이트 | ▶ |
- "형태학적 패러다임"
우리가 위키함수에서 만들고자 하는 초기 유형의 함수 중 하나는 단어에 대해 규칙적인 형태학적 변환을 수행하는 함수입니다. 즉, 단어의 기본 형태가 주어졌을 때 단어의 규칙적인 굴절 형태를 만들 수 있는 함수입니다. 또는 예를 들면 영어에서 "book"의 복수형이 "books"라는 것을 알 수 있습니다.
영어는 비교적 간단한 예이지만 이 뉴스레터의 제안을 더 쉽게 스케치할 수 있습니다: 다른 많은 경우에는 형태학적 기능과 문법이 더 복잡할 수 있습니다.
영어 명사의 기본 형태에서 복수형을 만드는 가장 일반적인 방법은 "s" 문자를 추가하는 것입니다. 이제 이 간단한 규칙으로 얼마나 많은 위키데이터 항목이 적용되는지 봅시다.
위키데이터에는 현재 약 28,100개의 영어 명사가 있습니다.
위키데이터는 사전 항목을 입력할 때 많은 유연성을 허용하는 반면, 위키함수는 데이터를 효과적으로 사용하기 위해 데이터가 더 예측 가능한 모양을 가져야 합니다. 이러한 모양을 표현하는 한 가지 방법은 어휘 마스크를 사용하는 것입니다. 영어 명사에는 두 가지 다른 어휘 마스크가 있습니다: 하나는 단수형과 복수형(예를 들어,"book"과 "books")과 네 가지 형태(2개의 속격 형태 포함, 즉 "book's" 및 "books'"). 이 두 마스크는 데이터 완전성을 확인하기 위해 위키데이터에서 사용하는 언어인 Shex로 자동 번역되었습니다. 그러나 위키데이터에서는 두 가지 형식의 버전만 개체 스키마로 바뀌었습니다.
이제 위키데이터에서 28,000개의 영어 명사를 가져와 위에서 설명한 요구 사항을 충족하는 명사 수를 확인할 수 있습니다(코드에 관심이 있으면 알려주세요). 명사의 91% 이상인 25,500개 이상이 요건을 충족하는 것으로 나타났습니다. 그리고 그들 모두는 두 가지 형식의 스키마를 충족합니다. 4개의 명사(contract, player, swimmer, and sport)는 4형식 스키마를 거의 충족하지만 각 명사에서 주격 형식의 경우가 누락되었습니다.
따라서 구조적 요구 사항을 통과하는 25,500개의 명사에 집중해 보겠습니다. 낫위키람다에서 단어 끝에 "s" 문자를 추가하는 함수를 만들었습니다. 이렇게 복수형이 몇 개나 나오는지 세어보면 전체 명사의 82%인 "s"만 더하면 21,000개의 영어 명사가 올바르게 생성된다는 것을 알 수 있습니다. "s"를 추가하는 것은 하나의 패러다임이며 우리가 볼 수 있듯이 영어 명사에 가장 일반적인 것입니다.
함수 페이지의 오른쪽에서 "함수 평가"라는 제목을 볼 수 있으며 거기에 "book"과 같이 값을 입력할 수 있습니다. 아래의 "함수 요청"을 클릭하면 "books" 결과가 반환되어야 합니다. (위키람다는 개발이 활발히 진행 중이며 테스트 사이트에서 언제든지 문제가 발생할 수 있습니다. 올바르게 작동하는 평가의 스크린샷이 여기에 표시됩니다.)
또 다른 패러다임은 문자 "y"로 끝나는 많은 영어 명사에 적용됩니다. 예를 들어, "baby"를 "babies"로, "fairy"을 "fairies"으로 바꿀 때, 문자 "y"를 문자 "ies"로 바꾸는 경우가 많이 있습니다. 낫위키람다에서 끝에 "y"를 "ies"로 바꾸는 함수를 만들었습니다. 위키데이터의 명사에 대해 이 패러다임을 실행하면 2,000개 이상의 명사(거의 8%)가 이 함수으로 처리됩니다.
우리는 더 많은 패러다임을 만들 수 있고(예를 들어 1,800개 이상의 명사를 포함하는 "es"를 추가), 이러한 함수 중 어떤 것을 적용할지 식별하는 단일 함수를 작성할 수도 있습니다(예를 들어 "s" 또는 "sh"로 끝나는 경우 "es"를 추가; 자음이 앞에 오는 "y"로 끝나는 경우 해당 "y"를 "ies"로 바꾸고; 그렇지 않으면 단순히 "s" 등을 추가). 그러면 더 많은 단어를 처리할 수 있는 더 강력한 기능을 제공할 수 있습니다(약간의 실험을 통해 모든 경우의 98.3%를 다루는 함수를 찾았습니다).
문법적 프레임워크는 이러한 함수를 소위 스마트 패러다임으로 도입했습니다. 영어 명사에 대한 스마트 패러다임의 웹 기반 구현은 위키데이터에 있는 명사의 96%를 다룹니다. 이 수치 중 하나가 현대의 기계 학습 기반 솔루션과 어떻게 비교되는지 매우 궁금할 것입니다. 또한 코드가 너무 복잡해지지 않으면서 더 나은 적용 범위로 더 스마트한 패러다임을 만들도록 사람들을 초대하고 싶습니다.
스마트 패러다임은 위키데이터의 데이터가 불완전할 때 유용합니다. 예를 들어, 차용어와 기술 용어, 신조어, 이름의 경우 또는 명사를 동사화할 때(소위 변환), 위키데이터가 아직 명시적으로 알지 못하는 양식을 자동으로 생성해야 할 수도 있습니다.
이번 주의 항목이 이미 꽤 길어지고 있으므로 위키함수에서 구현된 패러다임이 위키데이터의 사전 데이터와 상호 작용할 수 있는 가능성에 대한 논의를 다음 시간으로 미룰 것입니다. 이것은 또한 형태학적 패러다임이 미래에 추상 위키백과에서 할 수 있는 역할에 대해 더 많은 빛을 밝힐 것입니다.
다른 소식에서:
이번 주, 추상 위키백과가 미국 NPR 라디오 뉴스 프로그램 더 월드(World)에서 다루어졌습니다. 진행자 마르코 베르만(Marco Werman)이 데니(Denny)와 인터뷰한 5분 분량의 방송이 수많은 공공 라디오 방송국에서 방송되었습니다. 이 방송을 이제 온라인에서도 사용할 수 있습니다.
독일 공영 TV 방송국 3sat은 이번 주에 위키백과에 관한 다큐멘터리 "Wikipedia - Die Schwarmoffensive"를 방송했습니다. 이 독일어 다큐멘터리는 독일, 스위스, 오스트리아에서 온라인으로 볼 수 있습니다. 또한 다큐멘터리의 끝 부분에서 몇 분 동안 추상 위키백과에 대해 설명합니다.