Trouver des jeux de données via des bases pluridisciplinaires et des moteurs de recherche

1 - L’intérêt des jeux de données

Les données (data) collectées, observées, créées ou compilées dans le cadre de projets de recherche sont précieuses :

  • elles valident ou invalident des hypothèses de recherche ;
  • elles étayent les résultats de recherche présentés dans une publication ;
  • elles sont le point de départ de nouvelles recherches ;
  • elles constituent un apport complémentaire à d’autres travaux.

Trouver des jeux de données susceptibles d’enrichir les connaissances dans un domaine est essentiel à l’avancée des sciences. Réutiliser des jeux de données est un facteur d’efficience en recherche.

La publication de jeux de données (datasets) se développe mais reste inégale. Certaines disciplines comme l’astronomie en ont une longue expérience. Dans d’autres disciplines, comme l’agronomie ou les sciences sociales, la collecte des données et leur valorisation restent confinées au poste de travail du scientifique, du doctorant ou du laboratoire qui a conduit les recherches.

Mais les pratiques évoluent avec la science ouverte, la promotion des principes FAIR pour des données « faciles à trouver, accessibles, interopérables et réutilisables » et l’exigence de qualité et de transparence en recherche. Les scientifiques sont amenés à penser, planifier et assurer la gestion et la conservation des données tout au long de leurs travaux de recherche et au-delà. Cela couvre toutes les étapes : production, publication, diffusion et partage de données.

Dès lors que des données issues de recherches sont publiées pour être connues et réutilisées, leur découverte doit être facilitée :

  • des entrepôts de données (Research Data Repository ou Data Repository) appelés parfois archives ouvertes (Open archives, même si ce terme est plutôt réservé aux entrepôts de publications) sont dédiés au dépôt, à la conservation et à la diffusion de certains types de données et de leurs métadonnées (voir la fiche CoopIST : Déposer des données de recherche dans un entrepôt) ;
  • de nouveaux outils sur internet (bases de données pluridisciplinaires et moteurs de recherche académiques) permettent de rechercher des jeux de données sans savoir a priori dans quel entrepôt ceux-ci ont été déposés et sont accessibles.