Wikipédia abstraite/Mises à jour/2021-09-10
◀ | Actualités de la Wikipédia abstraite | ▶ |
- Paradigmes morphologiques
Un des premiers types de fonctions que l'on veut commencer à créer dans les wikifonctions sont celles qui effectuent des transformations morphologiques régulières sur les mots. C'est-à-dire des fonctions qui - à partir de la forme de base du mot - peuvent créer les formes fléchies régulières d'un mot. Ou, pour donner un exemple : qui peut nous dire que le pluriel de “book” en anglais est “books”.
L'anglais est un exemple relativement simple, mais cela devrait rendre plus facile l'explication de la proposition dans cette lettre d'information. Dans de nombreux autres cas, les fonctions morphologiques et la grammaire seront probablement plus compliquées.
La façon la plus régulière de créer un pluriel à partir de la forme de base d'un nom anglais est d'y ajouter la lettre "s". Voyons maintenant combien d'entrées de Wikidata sont couvertes par cette règle simple.
Wikidata a actuellement environ 28 100 noms anglais.
Alors que Wikidata permet une grande flexibilité lors de la saisie d'entrées lexicographiques, les wikifonctions nécessiteront que les données aient une forme plus prévisible afin de les utiliser efficacement. Une façon d'exprimer ces formes consiste à utiliser masques lexicaux. Les noms anglais ont deux masques lexicaux différents : un avec seulement deux formes (un singulier et un pluriel, par exemple “book” et “books”) et un avec quatre formes (dont deux formes au génitif : “book’s” et “books’”). Ces deux masques ont été traduits automatiquement en Shex, le langage utilisée par Wikidata pour vérifier la complétude des données. Mais seule la version avec deux formes a été transformée en une entité Schéma dans Wikidata.
Maintenant, nous pouvons prendre les 28 000 noms anglais de Wikidata et vérifier combien remplissent les conditions décrites ci-dessus (faites-moi savoir si vous êtes intéressez par le code). Il se trouve que plus de 25 500, soit plus de 91 % des noms, remplissent les conditions requises. Et tous remplissent le schéma à deux formes. Quatre noms (contrat, player, nageur et sport' ') remplissent presque le schéma des quatre formes, mais sur chacun d'eux les cas manquent sur les formes nominatives.
Concentrons-nous donc sur les 25 500 noms qui satisfont aux conditions structurelles. Nous avons créé une fonction qui ajoute la lettre "s" à la fin du mot dans NotWikiLambda. Lorsque nous comptons combien de pluriels sont générés de cette façon, nous voyons que 21 000 noms anglais sont créés correctement en ajoutant simplement des "s", 82 % du total des noms. L'ajout de "s" est un paradigme et, comme nous pouvons le voir, le plus courant pour les noms anglais.
Sur la partie droite de la page de la fonction, vous pouvez voir un titre « Évaluer la fonction » et vous pouvez y entrer une valeur, par exemple “book”. Si vous cliquez sur « Appeler la fonction » ci-dessous, le résultat “books” devrait être affiché. (remarquez que WikiLambda est en cours de développement et que le site de test peut avoir des problèmes à tout moment. Une capture d'écran de l'évaluation qui fonctionne correctement est affichée ici.)
Un autre paradigme fonctionne pour de nombreux noms anglais qui se terminent par la lettre "y". Il y a de nombreux cas où l'on remplace la lettre "y" par les lettres "ies", par ex. en transformant “baby” en “babies”, ou “fairy” en “fairies”. Nous avons créé la fonction remplaçant “y” à la fin par “ies” dans NotWikiLambda. Lorsque nous exécutons ce paradigme sur les noms de Wikidata, plus de 2 000 noms (près de 8 %) sont couverts par cette fonction.
Nous pourrions créer d'autres paradigmes (par exemple ajouter "es", qui couvrirait plus de 1800 noms), et nous pourrions même écrire une seule fonction qui essaie de discerner laquelle de ces fonctions appliquer (par exemple si elle se termine par “s” ou "“sh”", ajoutez “es” ; s'il se termine par un “y” précédé d'une consonne, remplacez ce “y” avec un “ies” ; sinon ajoutez simplement un "s", etc.), ce qui nous donnerait une fonction plus puissante qui peut traiter beaucoup plus de mots (un peu d'expérimentation m'a amené à un function qui couvre 98,3 % de tous les cas).
Grammatical Framework a introduit ces fonctions sous le nom de paradigmes intelligents. Leur implémentation web de paradigmes intelligents pour les noms anglais couvre 96 % des noms de Wikidata. Je serais très curieux de voir comment l'un ou l'autre de ces chiffres se compare aux solutions modernes basées sur l'apprentissage automatique, et je souhaite également inviter les gens à créer un paradigme encore plus intelligent avec une meilleure couverture sans que le code devienne trop complexe.
Les paradigmes intelligents sont utiles lorsque les données de Wikidata sont incomplètes. Par exemple, pour les mots empruntés, les termes techniques, les néologismes, les noms ou lors de la verbalisation de noms (appelés conversion), nous pourrions avoir besoin de créer une forme automatiquement que Wikidata ne connaît pas encore explicitement.
L'entrée de cette semaine devient déjà assez longue, nous reporterons à la prochaine fois la discussion de certaines des possibilités d'interaction de ces paradigmes implémentés dans Wikifunctions avec les données lexicographiques de Wikidata. Cela permettra également de mieux comprendre le rôle que les paradigmes morphologiques pourraient jouer pour la Wikipédia abstraite à l'avenir.
Autres nouvelles :
Cette semaine, Wikipédia abstraite a été couverte dans le programme d'information The World de la radio américain NPR. L'animateur Marco Werman a interviewé Denny dans un segment de cinq minutes qui a été diffusé sur de nombreuses stations de radio publiques. Le segment est maintenant également disponible en ligne.
La chaîne de télévision publique allemande 3sat a diffusé cette semaine un documentaire sur Wikipédia : "Wikipedia - Die Schwarmoffensive" (l'offensive en essaim). Le documentaire en langue allemande peut être visionné en ligne depuis l'Allemagne, la Suisse et l'Autriche. Il traite également de la Wikipédia abstraite pendant quelques minutes à la fin du documentaire.