PetScan
PetScan est un outil de requête puissant. On décrit une requête grâce au formulaire de l’outil. Voir aussi le pourquoi du comment (en anglais).
Introduction
PetScan est un outil qui permet aux utilisateurs d'extraire des données, de générer des listes de pages Wikipedia (ou projets liés), ou d'éléments Wikidata correspondant à certains critères, tels que toutes les pages d'une catégorie donnée, ou tous les éléments ayant une propriété donnée, et d'extraire et analyser les données à partir de projets Wikimedia. PetScan peut aussi combiner de différentes manières des listes temporaires (appelées « sources ») pour en créer une nouvelle. Les sources comprennent :
Pages de Wiki(m/p)édia
Elles sont définies dans les onglets « Categories », « Page properties » et « Templates&links ». Vous pouvez obtenir des pages dans les arbres de catégories, avec des modèles spécifiques ou des liens depuis/vers des pages spécifiques ; limiter vos résultats à des espaces de noms donnés, des modifications par des humains/robots, les créations de pages, les modifications récentes, etc. Ces trois onglets représentent l'ancienne fonctionnalité CatScan2. Le résultat de la requête est conséquemment empaqueté en tant que « category source ».
Autres sources
Dans cet onglet, vous pouvez ajouter davantage de sources, telles que des requêtes Wikidata SPARQL (WDQS) ou des listes PagePile. Vous pouvez également définir comment combiner les multiples sources ; par défaut, le sous-ensemble (c'est-à-dire seulement les pages qui sont présentes dans toutes les sources) est renvoyé dans le résultat final. Vous pouvez aussi indiquer vers quel wiki vous voulez que votre liste pointe, par exemple si vous combinez des résultats Wikipédia et Wikidata.
Wikidata
Dans cet onglet, vous pouvez annoter ou filtrer davantage vos résultats, par exemple en ne renvoyant uniquement que les éléments Wikidata qui n'ont pas de déclarations. Utiliser n'importe lequel de ces filtres convertira votre liste vers Wikidata.
Résultat
Ici, vous pouvez indiquer des options pour votre liste, par exemple le format (page Web, wiki, PagePile, etc.). Vous pouvez également filtrer davantage vos résultats, par exemple avec des expressions régulières sur les titres de page/libellés d'élément. Vous pouvez aussi remplacer la liste de résultat avec une liste rangée de sujets manquants (« liens rouges »).
Définir votre requête
Les champs qui peuvent être renseignés dans le formulaire de requête sont les suivants :
Champ | Signification | Valeur par défaut | Note |
---|---|---|---|
Langue | Sélectionner le code de langue du projet, par exemple « fr » pour le français ou « de » pour l'allemand. Sélectionner « commons » pour Wikimedia Commons | "en" | |
Projet | Projet Wikimédia dans lequel rechercher (wikipedia, wiktionary, wikiversity, etc.) | "wikipedia" | NOTE: If you choose "Commons," be sure to go to the "Page properties" tab and check the "File" namespace to get useful results. |
Profondeur | Profondeur des arbres de catégories à laquelle rechercher. 0 signifie de ne pas utiliser les sous-catégories. | "0" | |
Catégories | Liste des catégories, une par ligne sans la partie « category: ». | vide | Ajouter '|' et un nombre réglera la profondeur de cet arbre de catégorie, écrasant la valeur du champ Profondeur. En indiquant une catégorie, vous pouvez réduire les résultats de la recherche et mettre ainsi l'accent sur les pages concernant un sujet particulier. |
Retirer les catégories | Liste des catégories comme ci-dessus. Seuls des articles qui n'appartiennent pas à ces catégories seront présents dans les résultats. | Vide | |
Combinaison | Utilisation des options précédentes. Ici une page est considérée comme « catégorisée dans » une catégorie si elle est catégorisée directement dans la catégorie, mais également si elle est catégorisée dans son arbre de sous-catégories :
Les options actuellement disponibles sont « sous-ensemble » (intersection) ou « union » . |
sous-ensemble | |
Espaces de noms | Les espaces de noms des pages candidates | Articles | |
Redirections | L’une d’elle | ||
Modèles | Utilisation des pages qui :
Entrer un modèle par ligne, sans le précéder de la mention "template:". Chaque box peut être définie en sélectionnant "Use talk page instead". |
Vide | Cette option semble seulement compatible avec les modèles définis dans l'espace de noms "template:". Elle ne peut être utilisée avec des modèles définis dans l'espace de noms "User:". Elle ne peut pas non plus être utilisée dans les espaces de noms "Creator:" ou "Institution:" qui sont utilisés dans Wikimedia Commons. |
Lié depuis : | |||
Dernière modification | Affiche les pages dont la dernière modification a été effectuée ou non par un robot, par un utilisateur anonyme, ou qui est marquée | Soit, soit, soit | |
Dernière édition | Date ou période de temps de la dernière modification effectuée sur la page, au format YYYYMMDDHHMMSS (mais il est possible de raccourcir le format). | "Only pages created during the above time window" vous permet de rechercher first change à la place. | |
Taille | Taille du fichier ou plage de la taille du fichier en octets | Vide | Permet la sélection d'articles dont les fichiers sont plus lourds qu'une certaine taille limite et/ou moins lourds qu'une autre taille limite. |
Liens | Nombre ou plage de liens internes dans la page | Vide | Permet la sélection d'articles ayant beaucoup ou peu de liens |
Liens rouges | |||
Catégories les plus pertinentes | Fonctionnalité non encore disponible. | ||
Trier | Fonctionnalité pas encore disponible qui définirait des critères de tri pour le fichier de sortie. | ||
Liste manuelle | Permet de fournir une liste de noms de pages ou d'éléments Wikidata à partir du projet spécifié, si besoin préfixés par leur espace de noms | La partie difficile est de spécifier les projets, et les codes corrects sont :
| |
Wikidata | Prendre Wikidata si possible | ||
Format | Format de sortie des résultats de recherche : HTML : pages web CSV : fichier à données tabulaires sous forme de valeurs entre quotes séparées par des virgules TSV : fichier à données tabulaires sous forme de valeurs séparées par des tabulations WIKI : comme une table Wiki PHP : comme un fichier PHP XML : comme un fichier XML |
||
Exécuter | Appuyez ici pour exécuter la recherche que vous avez définie. |
Savoir comment …
PetScan ID (PSID)
Depuis le 4 avril 2016 chaque requête qui a été exécutée dans PetScan est enregistrée (anonymement) et associée à un unique et stable identifiant numérique appelé "PSID". Vous pouvez l'utiliser pour :
- exécuter la requête PetScan en mettant le "PSID" en paramètre d'entrée par le biais d'outils supportant cet identifiant (comme WD-FIST) ;
- remplir dans une "Short URL" : https://petscan.wmflabs.org/?psid=PSID exécutera la requête avec le "PSID" avec tous ces paramètres associés ;
- développer par programme sur une requête précédente, en remplaçant certains paramètres : https://petscan.wmflabs.org/?format=wiki&psid=PSID va exécuter la même requête que la précédente, mais le format du fichier de sortie sera WIKI (au lieu du HTML qui est par défaut, ou n'importe quel type de fichier choisi à l'origine).
Remarques :
- Seule la requête sera stockée, les résultats ne le seront pas ;
- Les longues requêtes (comme celles avec beaucoup d'éléments enregistrés manuellement) ne seront pas stockées. Dans ce cas, il n'y aura pas de "PSID" ;
- Les résultats avec des cases à cocher vides ont plusieurs correspondances possibles dans l'ensemble Wikidata ;
- Le lien interwiki petscan: peut être utilisé pour générer des raccourcis pour des requêtes permanentes. Par exemple, [[petscan:PSID]].
- Les requêtes enregistrées ne sont pas dédupliquées, un nouveau PSID sera généré à chaque fois, à moins qu'un PSID existant soit appelé sans modification.
Créer les éléments Wikidata pour les articles Wikipédia qui n’en ont pas (fonction « créateur »)
- Configurer une requête qui renvoie une liste des pages Wikipedia (ou une autre liste comme des pages de projet Wikimedia excepté Wikidata), ou coller une liste manuellement dans "Other sources/Manual list"
Sous l'onglet "Page properties", le meilleur serait de sélectionner "Redirects=No"Maintenant, cela est fait automatiquement, vous pouvez revenir en arrière si vous voulez vraiment les redirections dans votre liste !- Sous l'onglet "Wikidata", sélectionner "Only pages without item" pour l'option "Wikidata" pour avoir les pages sans éléments
- Exécuter la requête
- Vos résultats auront des éléments supplémentaires à côté des résultats d'entête (à moins que vous ne soyez pas connecté dans WiDaR, auquel cas vous verrez un lien inapproprié à la place)
- Toutes les pages pour lesquelles il n'y a pas de correspondance exacte avec le libellé ou les alias sur Wikidata, sont cochées par défaut.
- Maintenant, vous pouvez cocher/décocher les cases si nécessaire.
- Vous pouvez ajouter des déclarations par défaut dans les cases de déclaration et elles seront ajoutées pour tous vos nouveaux éléments. Donc si vous voulez seulement créer des éléments pour des personnes, ajoutez
P31:Q5
. Vous pouvez ainsi ajouter des déclarations multiples de cette façon (une par ligne). Notez que "P/Q" nécessite d'être en majuscule, sinon (par exemple avec "p/q") cela échouera simplement. - Cliquer le bouton vert "Start QS". Cela ouvre une nouvelle page.
- En cliquant sur "Run" vous pouvez exécuter un batch dans votre navigateur, et sur "Run in background" pour l'exécuter en tâche de fond sur un serveur Wikimedia. Voir Help:QuickStatements pour plus d'informations.
Depuis juillet 2020, l'option "Run in background" présente quelques dysfonctionnements (par exemple, on arrive à créer des éléments en doublon). Utilisez le mode interface utilisateur autant que possible ! |
Ajouter ou supprimer des déclarations pour les éléments Wikidata
Il est possible d'ajouter ou de supprimer des déclarations pour les éléments Wikidata avec PetScan. Pour cela, il est crucial de choisir "Wikidata" dans "Other sources → Use Wiki". Vous verrez ensuite la boîte de commande à côté du numéro et vous pourrez continuer comme décrit à la section précédente.
Référant
(V2 seulement) si vous ouvrez PetScan à partir d'un autre outil pour permettre à l'utilisateur de créer une requête, vous pouvez passer les paramètres referrer_url
et referrer_name
(valant par défaut referrer_url
). referrer_url
doit avoir une chaîne {PSID}
qui sera remplacée par le PSID que l'utilisateur voit. Une fois qu'une requête a été exécutée, une case en haut de la page permettra à l'utilisateur de revenir à l'outil d'origine, en utilisant le referrer_url
et le PSID modifié.
Exemples
Articles d’un WikiProject
Un requête dans la page de discussion de cette notice : trouvez tous les articles de l'espace principal dans "WikiProject UK geography". En commençant avec un formulaire de soumission PetScan par défaut, ajoutez seulement "WikiProject UK geography" dans le premier espace du formulaire des rangées des catégories, et juste au-dessous, sélectionnez "Use talk pages instead". Voici la reqûete complète.. "Do it!" en bas. Quand cette requête fut exécutée le 16 août 2015, elle a mis 1,5 secondes à s'exécuter, et a donné une liste de 21 408 article. Cette liste apparaît en-dessous du formulaire de soumission (qui reste à l'écran) donc vous devez descendre dans la page pour voir les résultats.
Dablinks dans un WikiProject
Les contributeurs travaillant sur les articles homonymes cherchent à mobiliser les membres d'une zone de contenu WikiProject, plus particulier pour aider le WikiProject Canada. Un rapport PetScan est effectué pour trouver les articles ayant des liens ambigus qui sont dans le Wikiproject en question. Les critères appliqués :
- Les articles ayant des liens ambigus sont dans la catégorie "Category:All articles with links needing disambiguation", donc collez la mention "All articles with links needing disambiguation" dans le champ PetScan Categories.
- La profondeur est mise arbitrairement à 9, ce qui signifie que les articles trouvés seront ceux qui sont situés jusqu'à 9 sous-catégories de la catégorie parente "All articles with links needing disambiguation" (la recherche avec cette profondeur n'est pas nécessaire dans ce cas mais ne fait pas de mal.)
- Les articles dans WikiProject Canada ont le modèle "Template:WikiProject Canada" sur leur page de discussion, donc collez WikiProject Canada" dans le champ "Has any of these templates" de PetScan. Juste au-dessous, sélectionnez "Use talk pages instead" comme critère.
- Seuls les articles réguliers, pas les pages d'homonymie, sont recherchés. Les pages d'homonymie se distinguent par leur modèle "Template:Disambiguation" donc collez "Disambiguation" dans le champ "Has none of these templates" de Petscan, and vérifiez que "Use talk pages instead" n'est pas sélectionné.
- Ces critères sont mis en place par this PetScan submission form, filled out. Pour proposer cette requête, sélectionnez "Do it!" en bas de la page.
- Quand cela a été proposé le 16 août 2015, la requête a mis 31 secondes à s'exécuter, et le résultat était une liste de 255 articles. Les résultats montrent Les résultats montrent ci-dessous le formulaire de soumission PetScan, qui reste en place. Vous ne pouvez donc voir aucun changement à l'écran. Vous devez descendre dans la page pour avoir les résultats. Cette requête était exécutée avec le format de sortie par défaut qu'est HTML.
- Pour obtenir les résultats dans un format WIKI, pour les partager dans une sous-page du projet Wiki, la requête peut être modifiée pour sélectionner le format WIKI. Dans ce cas, les résultats sont dans un tableau et remplacent le formulaire de soumission PetScan sur l'écran.
- Pour obtenir une liste plus pratique pour les utilisateurs gérant les homonymies, configurer de sorte qu'un processus en plusieurs étapes pourra être suiv dès lors DabSolver s'ouvre sur n'importe quel élément cliqué.
Voici les résultats enregistrés dans un format TSV, importés dans Excel, puis puis une colonne a été composée pour concaténer de simples chaînes de texte avec les résultats. Cette colonne résultante a été par la suite copiée-collée.
Les résultats ont été collés sur la page Wikipedia anglaise w:Wikipedia:Canadian Wikipedians' notice board/ArticlesNeedingDisambiguation2015-08-17 et ont été aussi mis dans une fenêtre de la page discussion at the WikiProject Canada talk page. --Doncram (talk) 19:50, 24 August 2015 (UTC) link adjusted. DexDor (talk) 06:58, 29 March 2016 (UTC)
Détection des pages ayant une combinaison impropre de « espace de noms » et « catégorie »
PetScan peut être utilisé pour rechercher des pages qui sont dans une catégorie (ou une combinaison de catégories) qui ne sont pas appropriée pour des pages dans un espace de nom donné. Par exemple, les pages d'administration de Wikipédia qui sont dans une catégorie qui devraient seulement contenir des articles encyclopédiques. Ceci peut être corrigé en déplaçant par exemple un article dans le bon espace de nom ou en créant une discussion pour insérer un double point manquant (":") dans le cas où une catégorie est référencée. La première étape de ce processus consiste à identifier (en utilisant PetScan) les catégories à l'origine de la catégorisation incorrecte (par exemple les catégories liées à l'administration Wikipédia qui sont dans les catégories d'articles).
Trouver les contributions non categorisées des photos de Commons dans une langue donnée
(Basé sur Grants:Learning patterns/Treasures or landmines: detecting uncategorized, language-specific uploads in Commons. Voir le motif et l'explication complète sur cette page. Merci à User:Spiritia et aux autres contributeurs pour avoir contribué à ce projet !)
Exécuter un requête en utilisant PetScan avec les réglages suivants :
Language = commons Project = wikimedia Depth = 1 Categories = Média nécessitant des catégories Combination = ☑ Subset Namespaces = ☑ File Templates : Has all of these templates = <votre code de langue> Format: ☑ Extended data for files ☑ File usage data
Le code de la langue anglaise est "en", celle du roumain et "ro". Pour trouver les photos non catégorisées mises en ligne par des utilisateurs dont la langue est le roumain, une version de la requête (avec un fichier HTML comme fichier de sortie et sans autorun) est :
Au 15 mars 2016, après avoir cliqué sur le bouton "run", la requête prend environ 105 secondes pour s'exécuter, et génère 1748 photos non catégorisées.
Notes :
- Le champ "Language =" n'est pas utilisé pour sélectionner la langue voulue, le code de la langue désirée est définie dans le champ "Template"
- Dans la requête, le code de langue est sensible à la casse. Pour l'exemple précédent, il faut utiliser "ro" et non "RO"
- Pour générer les résultats, Format: ☑ Wiki a été choisi, au lieu de la sortie par défaut qu'est HTML.
Maintenant appréciez cet outil. Encore un merci tout particulier à User:Spiritia !
Éléments sans déclaration
L'option "n'a pas de déclaration" peut être utilisée pour rechercher :
- des éléments sans déclaration pour une catégorie dans Wikipedia (extrait : en:Category:United States geography stubs)
- des éléments sans déclaration pour l'ensemble des articles de Wikipédia dans une langue donnée (extrait : "sowiki")
Étapes pour importer le modèle, certaines se font avec PetScan.
Obtenir les liens de site pour un projet donné à partir d'une requête SPARQL
- Indiquez le projet dans l'onglet "Catégories". Par exemple
de
pour Language etwikipedia
dans Project pour utiliser l'édition en langue allemande de Wikipedia. - Dans Autres sources, entrez votre requête SPARQL
- Assurez-vous de sélectionner Des catégories dans les options Utilisez wiki
- Appuyez sur Do it
Cela pourrait être utile pour obtenir les pages vues d'un ensemble spécifique de pages, basé sur une requête SPARQL. Vous pouvez enregistrer ceci dans une Pagepile (vérifiez l'onglet Output), puis entrez cet identifiant de Pagepile dans analyses Massviews (sélectionnez 'PagePile' dans la liste déroulante Source).
Obtenir une liste d'éléments Wikidata avec les exclusions à partir d'une requête SPARQL
Supposons que vous ayez une liste de personnes avec des identifiants Wikidata (QID) que vous souhaitez leur ajouter une profession (P106) comme 'concepteur de bijoux' (Q2519376), peut-être avec un outil comme QuickStatements. Cependant, vous ne voulez pas ajouter cette occupation à des articles qui ont déjà cette profession. Voici comment faire avec PetScan :
- Avoir votre liste de QID dans un fichier texte, avec chaque QID sur une nouvelle ligne
- Dans l'onglet 'Autres sources', collez ce texte dans le champ appelé 'Liste manuelle'
- Dans le formulaire 'Wiki' entrez la chaîne
wikidatawiki
- Dans le champ SPARQL entrez votre requête SPARQL. Dans cet exemple, cette requête donnera à tous les humains ayant une profession de concepteur de bijoux :
select ?item where { ?item wdt:P31 wd:Q5; wdt:P106 wd:Q2519376. }
- Enfin, vous souhaitez faire une exclusion, donc dans le champ 'Combination' ajoutez la chaîne
manual NOT sparql
pour obtenir tous les QID à partir de la 'liste manuelle', mais sans les éléments de la requête SPARQL. - Cliquez sur 'Do it !'
Ajoutez votre exemple ici...
Rapports de bogues, demandes de fonctionnalités, base de code
Voir aussi
External links
- Training video from EduWiki 2023
- Wiki World Heritage User Group: Capacity Building PetScan Training 2021