추상 위키백과/업데이트/2022-03-14
◀ | 추상 위키백과 업데이트 | ▶ |
마리야 제로바에 대한 영어 위키백과 문서의 첫 번째 문장과 같은 추상 위키백과에서 텍스트를 생성하려면 어떻게 해야 합니까?
Mariya Yakovlevna Zerova, alternately Marija Jakovlevna Zerova, (April 7, 1902 – July 21, 1994) was a Ukrainian biologist and taxonomist known for her work in mycology.
이 짧은 문장을 생성하는 것과 관련하여 이름, 전기 날짜, 설명과 같은 흥미로운 질문이 많이 있습니다. 오늘은 이름에 대해서만 알아보겠습니다.
제로바가 우크라이나인이고 우크라이나에서 태어나 우크라이나에서 살았다는 점을 감안할 때 그녀의 이름은 키릴 문자 “Марія Яківна Зерова”을 사용하여 작성되었습니다. 그녀의 영어 위키백과 문서에서 키릴 문자로 된 그녀의 이름은 위키백과 정보 상자에 나와 있지만 문서 텍스트에는 나와 있지 않습니다. 키릴 문자에서 라틴 알파벳으로 이름을 음역하는 방법에는 여러 가지가 있습니다. 특히, 문자 я는 영어에서 야(Ya) 또는 자(Ja)로 음역될 수 있으며, 이는 영어 위키백과 문서에 주어진 변형으로 이어집니다.
그녀의 위키데이터 항목에는 그녀의 이름이 “Maria”, “Mariya” 또는 “Mariia”가 아니라 “Marija”라고 나와 있습니다(이 세 이름은 모두 우크라이나어로 “Марія”으로 작성됨). 이름은 어려운 난장판이므로 위키데이터가 이름을 나타내는 데 문제가 있는 것은 놀라운 일이 아닙니다. 이러한 종류의 문제를 해결하는 것을 목표로 하는 위키데이터의 위키프로젝트 이름의 노고에 큰 감사와 박수를 보냅니다. 도움이 되고자 한다면 가입해야 합니다.
그렇다면 다른 언어에 대한 추상 위키백과에서 그녀의 이름을 얻으려면 어떻게 해야 할까요? 모든 언어의 모든 이름에 어휘집이 필요합니까? 예를 들면 영어로 어휘소 “Maria”? 그런 다음 위키데이터의 주어진 이름을 주어진 이름에 어떻게 연결하고 어휘 목록을 해당 이름에 연결할까요?
그녀의 애칭인 “Yakovlevna”는 어떻습니까? 아니면 “Zerova”, 그녀의 성인가요? 두 이름 모두 “Mariya”보다 희귀합니다. 각 언어에 대해 개별적으로 위키데이터에서도 이러한 이름 각각에 대한 어휘집을 기대할 수 있습니까? 그것은 많은 작업처럼 보입니다.
그런 경우에 저는 대답이 '아니오'가 되기를 희망하고 우리가 그것을 피할 수 있는 방법을 찾을 수 있기를 바랍니다. 그러나 그것은 어떻게 생겼습니까? 평소와 같이 커뮤니티로서 제가 생각해낼 수 있는 것보다 더 나은 솔루션을 제공할 것으로 기대합니다. 함께라면 우리는 누구보다 똑똑합니다. 따라서 이것을 첫 번째, 대략적인 초안으로 생각하십시오.
제 첫 번째 생각은 “Yakovlevna”와 같은 이름을 문자열로 사용하고 정규 형태학적 함수를 기반으로 필요한 모든 형식을 생성할 수 있는 위키함수에 함수를 포함하는 것입니다. 형식이 불규칙한 이름은 여전히 어휘집이지만 함수가 필요한 형식을 만들 수 있다면 문자열을 기반으로 직접 사용할 수 있어야 합니다. 그래서 만약 우리가 “Yakovlevna’s” 이름의 소유 형태가 필요하다면(바로 이 문장에서처럼), 함수는 그것을 생성할 것입니다.
필요한 형식을 생성하는 동일한 메커니즘이 많은 지명 및 기타 고유명사에 도움이 될 수 있습니다. 또한 말벌의 둥지인 서로 다른 알파벳 사이를 음역할 수 있는 함수가 필요할 것입니다. 음역은 대상 언어에 따라 다를 수 있습니다: “Зерова”을 독일어로 음역하면 영어에서와 같이 “Zerova”가 아니라 “Serowa”가 됩니다.
하지만 그게 다가 아닙니다. 예리한 독자는 “Yakovlevna”가 “Яківна”를 직접 음역한 것이 아님을 이미 알아차렸을 것입니다. “Yakivna”(또는 “Jakivna”)입니다. 여기에 무슨 일이 벌어 졌었 나요?
이름이 “음역”되는 것 외에도(즉, 한 스크립트에서 다른 스크립트로 매핑하는 경우) 이름도 러시아어로 형성되는 방식으로 “번역”되거나 역형성되었습니다. 영어 형식 “Yakovlevna”는 러시아어 형식 “Яковлевна”을 기반으로 하며 실제로 러시아어 Wikipedia를 보면 생물학자의 러시아어 이름은 “Мария Яковлевна Зерова” — 그녀의 모국어 우크라이나어 위키백과 문서에 언급되지 않은 이름의 버전입니다.
그런데, 이름이 번역될 수 있다는 사실에 놀랐다면 “모든 입력 언어”를 클릭하여 위키데이터에서 여러 언어로 된 “교황 요한 바오로 2세”의 이름을 즐겨 보세요.
추상 위키백과는 먼저 “Яківна”을 러시아어로 번역한 다음 음역해야 한다는 것을 어떻게 알아냈을까요? 이게 과연 옳은 일일까요? 솔직히 말해서, 저는 여기에서 완전히 당황했습니다. 일반적으로 우크라이나어 이름은 먼저 러시아어 변형으로 번역된 다음 음역되어야 합니까? 이름이 같은 두 명의 다른 우크라이나인을 예로 들어 보겠습니다. 우크라이나 대통령과 키예프 시장의 형제는 모두 “Володимир”이지만 영어 위키백과에서는 대통령을 “Volodymyr”(직역)로 언급하고 있습니다. 다른 하나는 “Wladimir”입니다. 우크라이나어로는 같은 이름을 가지고 있습니다!
대부분의 경우 우리가 할 수 있는 최선은 위키데이터에 의존하고 항목의 레이블을 문자열 입력으로 사용하고 주어진 이름과 성에 대한 구조화된 데이터를 사용하는 것입니다. 이를 통해 개인이 다른 양식을 사용했다는 증거가 있는 항목별로 데이터를 수동으로 입력하고 수정할 수 있습니다. 위키데이터가 필요한 데이터를 제공하지 않는 경우에만 대체 기능을 사용해야 합니다. 그리고 대체 기능은 언어마다 다를 수 있으므로 러시아어에서는 “Zerova”가 “Яковлевна”이 될 수 있고 우크라이나에서는 “Яківна”이 될 수 있습니다.
그리고 아마도 그것을 명시적으로 인코딩해야 하는 것은 우리의 지식 생태계를 통해 사람과 장소의 이름이 어떻게 흐르고 권력과 불평등을 반영하는지 더 잘 알게 될 것입니다.
이 한 문장의 처음 몇 단어에 대한 흥미로운 점이 너무 많습니다. 그리고 우리는 그녀의 생일이 그레고리력, 율리우스력 또는 다른 달력에 명시되어 있는지 여부에 대해서는 아직 이야기하지 않았습니다!