Wikipédia abstraite/Mises à jour/2022-03-14
◀ | Actualités de la Wikipédia abstraite | ▶ |
Comment pourrions nous générer un texte dans la Wikipédia abstraite telle que la première phrase de l‘article de Wikipédia en anglais sur Mariya Zerova ?
Mariya Yakovlevna Zerova, alternately Marija Jakovlevna Zerova, (April 7, 1902 – July 21, 1994) was a Ukrainian biologist and taxonomist known for her work in mycology.
Il y a plein de questions intéressantes concernant la génération de cette courte phrase — le nom, les dates biographiques, la description. Aujourd‘hui nous nous concentrerons juste sur le nom.
Puisque Mme Zerova était ukrainienne, est née et à vécu en Ukraine, son nom était écrit en utilisant l‘alphabet cyrillique, « Марія Яківна Зерова ». Dans l’article la concernant dans l’édition de Wikipédia en anglais, son nom en alphabet cyrillique est donné dans la boîte d‘informations, mais pas dans le texte de l‘article. Il y a plusieurs façons de translitérer le nom de l‘alphabet cyrillique à l‘alphabet latin. En particulier la lettre cyrillique « я » peut être translitérée comme « ya » ou « ja » en anglais, ce qui conduit aux variations données dans l‘article Wikipédia en anglais.
Son élément Wikidata établit que son prénom en anglais est « Marija », et non pas « Maria », « Mariya », ni « Mariia » (tous ces trois noms sont écrits comme « Марія » en ukrainien). Les noms sont un écueil difficile et il n‘est donc pas surprenant que Wikidata a des difficultés à les représenter. Un grand merci et braco au dur travail réalisé par le Wikiprojet des Noms sur Wikidata, qui vise à faire le tri face à ce genre de problème. Vous devriez les rejoindre si vous êtes intéressé pour apporter votre aide.
Donc, comment obtiendrions nom son nom pour la Wikipédia abstraite dans les différentes langues ? Avons-nous besoin des lexèmes par chaque prénom dans chaque langue ? Tel que le lexème « Maria » en anglais ? Et alors comment établissons-nous le lien du nom donné dans Wikidata au nom donné, puis à son tour le lien du lexème à ce prénom ?
Qu‘en est-il de « Yakovlevna », son patronyme de naissance ? Ou « Zerova », son nom de famille et d’épouse ? Ces deux noms sont plus rares que le prénom « Mariya ». Attendrions-nous également des lexèmes dans Wikidata pour chacun de ces noms, et pour chaque langue individuellement ? Cela paraît être beaucoup de travail.
Dans de tels cas j’espère que la réponse est non et que l’on peut déterminer une façon d’éviter ça. Mais à quoi cela pourrait ressembler ? Comme d’habitude j’attends qu’au sein de la communauté nous parviendrons à une meilleure solution que celle à laquelle je pourrais songer. Ensemble nous serons plus futés que chacun d’entre nous. Aussi considérez ceci juste comme une première ébauche pleine d’aspérités.
Ma première pensée serait d’avoir des fonctions dans Wikifonctions qui prendrait un nom tel que « Yakovlevna » en tant que chaîne et qui pourrait générer toutes les formes nécessaires basées sur des fonctions morphologiques régulières. Les noms ayant des formes irrégulières seraient encore des lexèmes, mais si une fonction peut créer les formes nécessaires, nous devrions pouvoir utiliser cela directement en nous basant sur une chaîne. Donc si nous avons besoin de la forme génitive du nom « Yakovlevna’s » (comme dans cette courte phrase), une fonction pourrait juste la générer.
Le même mécanisme qui génère les formes nécessaires peut être utile pour de nombreux noms de lieux et d’autres noms propres. De plus, nous aurons probablement besoin de fonctions capables de translitérer entre des alphabets ou syllabaires différents, ce qui est un nid de frelons en lui-même. Les translitérations peuvent différer d’une langue cible à une autre : la translitération de « Зерова » en allemand serait « Serowa », et non pas « Zerova » comme en anglais.
Mais ce n’est pas tout. Le lecteur astucieux peut avoir remarqué que « Yakovlevna » n’est pas une translitération directe de « Яківна » : ce serait « Yakivna » (ou « Jakivna »). Que s’est-il passé ici ?
En plus que le nom a été « translitéré » (c’est-à-dire converti d’une écriture à une autre) le nom a également été « traduit », ou rétroformé, de la façon où il aurait été formé en russe. La forme « Yakovlevna » en anglais est basée sur la forme « Яковлевна » en russe et, effectivement, si nous consultons l’édition de Wikipédia en russe, le nom russe de la biologiste est « Мария Яковлевна Зерова » — une version du nom qui n’est mentionnée nulle part dans son article native de Wikipédia en ukrainien.
D’ailleurs, si vous êtes surpris de trouver que des noms peuvent être traduits, appréciez de voir les noms donnés au « Pape Jean Paul II » dans différentes langues sur Wikidata en cliquant sur «Toutes les langues saisies ».
Comment la Wikipédia abstraite pourrait déterminer qu’elle doit d’abord traduire « Яківна » en russe, puis ensuite le translitérer ? Est-ce même la bonne chose à effectuer ? Pour être honnête, je suis entièrement perplexe ici. Les noms ukrainiens devraient-ils en général être d’abord traduits en variantes russes avant d’être translitérés ? Prenons deux autres Ukrainiens, qui ont tous les deux le même prénom : le président de l’Ukraine et le frère du maire de Kyiv sont tous les deux appelés « Володимир », mais Wikipédia en anglais désigne le président comme « Volodymyr » et l’autre comme « Wladimir ». En ukrainien, ils ont le même prénom !
Je devine que dans nombre de ces cas la meilleure chose que nous pouvons faire est de compter sur Wikidata et d’utiliser les libellés des éléments comme chaîne d’entrée et les données structurées autour des prénoms et noms de famille. Ceci nous permet d’entrer et corriger manuellement les données, élément par élément, là où il y a une évidence que l’individu utilisait une forme différente. Ce n’est que lorsque Wikidata ne fournit pas les données nécessaires que nous aurons besoin de faire appel aux fonctions de repli. Et les fonctions de repli pourront être différentes d’une langue à l’autre, de sorte que « Zerova » puisse être « Яковлевна » (« Yakolevna ») en russe et « Яківна » (« Yakivna ») en ukrainien.
Et peut-être, juste peut-être, avoir à encoder cela explicitement nous rendra plus conscient de la façon dont les noms de personnes et de lieux s’échangent au sein de notre écosystème de connaissance et comment ils reflètent le pouvoir et l’iniquité.
Il y a tellement de choses intéressantes à dire rien qu’au sujet des premiers mots de cette seule phrase et nous n’avons pourtant même pas encore discuté de savoir si sa date de naissance doit être formulée dans le calendrier grégorien ou julien, voire un autre calendrier !