Archives

L'open data au défi de la normalisation des jeux de données

La réutilisation des données publiques passe par leur normalisation. Un enjeu sur lequel Etalab et OpenDataFrance ont décidé de s’allier en mutualisant outils et documentation. L’initiative ne résout cependant pas totalement la question de la gouvernance des schémas de données.

Publier un jeu de données national à l'image du répertoire des entreprises ou du cadastre est assez simple car il est produit par une seule administration, en l’occurrence respectivement l’Insee et la direction générale des finances publiques (DGFIP.) Ouvrir les données produites par des centaines de collectivités est un tout autre défi. Jusqu’à peu, chaque territoire y allait de son format, de son schéma de description de données, empêchant toute compilation des données à grande échelle. Mais si cet enjeu de l’interopérabilité n’est pas nouveau, les initiatives visant à y remédier étaient quelque peu dispersées comme l’ont volontiers reconnu les représentants d’OpenDataFrance et d’Etalab à l’occasion d’un webinaire organisé le 10 mars 2022.

Le socle commun des données locales

"Dès la publication de la loi pour une République numérique en 2016 nous avions identifié cet enjeu. C’est ce qui nous a poussé à mettre en place dès 2017 un socle commun des données locales (SCDL)", explique Jean-Marie Bourgogne, délégué général d’OpenDataFrance. Un socle doté de deux finalités : aider les collectivités à prioriser les jeux de données locales à ouvrir dans le cadre de l’extension de l’obligation d’ouverture des données aux communes de plus de 3.500 habitants et contribuer à créer une masse de données standardisées favorable à leur réutilisation. C’est ainsi que des jeux de données tels que les délibérations, les budgets, les prénoms ou les menus des cantines (…) ont rapidement été normalisés. À ce socle a été associé un validateur de données baptisé Validata automatisant le contrôle des données.

Normalisation par voie réglementaire

De son côté, l’État a aussi pris conscience de l’enjeu de la standardisation dès lors qu’il y avait plusieurs producteurs d’un même type de données. Le levier réglementaire a été abondamment mobilisé ces dernières années pour obliger à utiliser une seule et même nomenclature pour décrire, par exemple, une borne de recharge électrique, les données essentielles des marchés publics ou encore les défibrillateurs et l’adresse postale. Des standards qui sont du reste venus enrichir le SCDL. La loi d’orientation des mobilités, via le point d’accès national aux données de transport transport.data.gouv.fr, a aussi poussé à l’adoption de standards qui s’imposent aux autorités organisatrices de la mobilité pour décrire réseaux de transport, points d’arrêts et autres aires de covoiturage.

Point d’accès unique aux schémas

"La multiplication des schémas nous a conduit à ouvrir schema.data.gouv.fr, site qui répertorie tous les schémas, y compris ceux du SCDL", explique Geoffrey Aldebert, d’Etalab. Jusqu’à présent cependant, plusieurs sites proposant des schémas de données coexistaient, "ce qui n’était pas optimal pour les utilisateurs". C’est en 2021 qu’a été décidé de "faire converger les initiatives" avec désormais un seul site et une seule documentation pour l’ensemble des schémas de données. Le validateur de données imaginé par OpenDatafrance a lui-même été intégré à la plateforme Etalab (validata.etalab.studio). "Mais la grande nouveauté est de permettre à n’importe quel acteur de proposer un schéma de données ou de commenter un schéma existant", souligne Geoffrey Aldebert. 

Labelliser les concepteurs de schémas

Ce point d’entrée unique sur la normalisation des données est une avancée mais il ne règle pas pour autant la question de la gouvernance des schémas. Car un schéma a vocation à évoluer pour répondre aux besoins des (ré)utilisateurs, s’adapter à des changements réglementaires ou techniques. Or ni Etalab, ni OpenDataFrance sont en mesure de piloter tous les schémas, certains pouvant porter sur des domaines extrêmement techniques. "C’est la raison pour laquelle nous proposons un mécanisme de label délivré par une entité légitime sur une thématique, comme OpenDataFrance pour les collectivités", explique Geoffrey Aldebert. Cette labellisation vise d’abord à reconnaitre et valoriser des acteurs déjà très investis sur la normalisation des données comme le point d’accès aux données de transport, le conseil national de l’information géographique (Cnig) ou encore le Cerema. Mais il pourrait aussi concerner des entités comme des associations d’élus ou toute autre structure reconnue pour son expertise technique sur un domaine métier. Avis aux candidats.