WikiCite/2020 Virtual conference/Méthodes pour l’enrichissement et la validation automatique des données bibliographiques

Open citations & linked bibliographic data | 26-28 October 2020 | #WikiCite

Part of Celebrating Wikidata's 8th Birthday | #WikidataBirthday

Méthodes pour l’enrichissement et la validation automatique des données bibliographiques edit

17:15 UTC 30min

Résumé edit

Les diapositives

Les citations (ou références bibliographiques) sont les données de base pour signaler la littérature scientifique et ainsi accéder à la production des chercheurs du monde entier. Longtemps cela a été l’apanage de bases de données commerciales, jusqu’à ce que le mouvement du libre accès et de la science ouverte « libère » ces données. Aujourd’hui il y a un véritable enjeu sur l’enrichissement de ces données et leur utilisation. À travers deux projets nous illustrerons comment utiliser les références bibliographiques et enrichir automatiquement des bases de données bibliographiques en créant de nouvelles métadonnées. Dans le projet ISTEX, archive couvrant les publications scientifiques jusqu’en 2017 en texte intégral et accessible aux chercheurs français, nous verrons comment nous avons pu traiter 23 millions de documents pour extraire les références bibliographiques et les structurer et l’usage que nous pouvons en faire. Dans le projet CONDITOR, base de signalement de la production scientifique, nous insisterons sur l’enrichissement automatique des notices bibliographiques et donnerons des exemples d’applications.

Bio edit

Pascal Cuxac (Institut National de l'Information Scientifique et Technique, France) est docteur en Génie Géologique et Minier. Il intègre le CNRS en 1993 comme Ingénieur de Recherche. Spécialiste des méthodes de fouilles de textes appliquées à l'IST (Information Scientifique et Technique), il a publié plus de 70 articles. Ses travaux portent, entre autre, sur les méthodes de classification, l’apprentissage supervisé, l’indexation automatique, la détection de thèmes émergeant. Actuellement, responsable du service Text and Data Mining de l’INIST-CNRS, il participe à des projets nationaux et à l’organisation d’ateliers dans des conférences internationales.

Références edit

Cuxac, P., & Thouvenin, N. (2017). Archives numériques et fouille de textes: le projet ISTEX. Atelier sur la Fouille de Textes. http://vincentlemaire-labs.fr/TM2017/Cuxax_et_al.pdf.
Ghribi, M., Cuxac, P., Lamirel, J. C., & Lelu, A. (2010, January). Mesures de qualité de clustering de documents: Prise en compte de la distribution des mots clés. In 10ième Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances - EGC 2010. https://hal.archives-ouvertes.fr/hal-00614071/.
Lamirel, J. C., Cuxac, P., Chivukula, A. S., & Hajlaoui, K. (2015). Optimizing text classification through efficient feature selection based on quality metric. Journal of Intelligent Information Systems, 45(3), 379-396. doi:10.1007/s10844-014-0317-4.
Cuxac, P., Lamirel, J. C., & Bonvallot, V. (2013). Efficient supervised and semi-supervised approaches for affiliations disambiguation. Scientometrics, 97(1), 47-58. doi:10.1007/s11192-013-1025-5.
Hörlesberger, M., Roche, I., Besagni, D., Scherngell, T., François, C., Cuxac, P., ... & Holste, D. (2013). A concept for inferring ‘frontier research’in grant proposals. Scientometrics, 97(2), 129-148. doi:10.1007/s11192-013-1008-6.