Les schémas de données
Certaines données jouent un rôle crucial dans le contexte de l’open data, car elles fournissent des informations importantes pour la transparence, la prise de décision et le développement local. Afin de garantir une collecte efficace de ces données, il est nécessaire de disposer d'équipements et de systèmes de collecte et de gestion adéquats.
Les schémas de données, également appelés simplement schémas, décrivent la configuration d'un fichier de données. Ils spécifient les champs présents, la représentation des données, les valeurs possibles, les formats, etc. et offrent ainsi une vision claire de la structure du jeu de données.
Quand les données sont en cours de production, on doit déterminer le format de ces données : on crée alors un schéma qui permet de fusionner les données. L’intérêt principal des schémas de données est donc d’homogénéiser celles-ci.
Schema.data.gouv.fr
Schema.data.gouv.fr est une plateforme conçue pour répertorier tous les schémas de données publiques en France. Elle offre un accès à la documentation de ces schémas, ce qui facilite ainsi la compréhension des formats de données attendus pour les producteurs de données. Elle apporte aussi un soutien aux producteurs de schémas de données en les guidant dans le processus de référencement de leurs schémas.
Par exemple, l’Ademe met en place des schémas sur schema.data.gouv.fr pour récupérer des données et alimenter ses référentiels grâce à des partenaires : https://data.pointsapport.ademe.fr/datasets/donnees-eo-ecologic/full.
Une évolution est prévue pour simplifier l’import des schémas sur notre plateforme : il sera bientôt possible de créer un jeu de données éditable à partir d’un schéma, grâce au formulaire d’édition.
Les schémas de données & Koumoul
La plateforme Data Fair permet de gérer de multiples jeux de données qui utilisent un schéma homogène. Les différents jeux de données qui utilisent un schéma prédéterminé sont créés :
- soit par les administrateurs de département quand les producteurs sont dans l'organisation ;
- soit l'administrateur général créé les jeux de données et donne des permissions d’écriture à des organisations partenaires quand les producteurs sont hors de l'organisation.
Les producteurs alimentent par formulaire sur l’espace personnel ou via un traitement ou en chargeant un fichier manuellement.
Tous les schémas de jeux de données sont compatibles avec le format JSON Schema.
Vous pouvez également aller consulter le cours décrivant les étapes pour créer un jeu de données éditable à l'aide d'un schéma de référence. Par ailleurs, la plateforme Data Fair permet de fusionner très simplement des jeux de données ayant le même schéma : toutes les fonctionnalités (export, API, datavisualisation...), sont ainsi compatibles avec ces jeux de données virtuels.
Le SCDL
Le socle commun de données locales (SCDL) comprend divers types de données telles que géographiques, socio-économiques et environnementales, essentielles pour la gestion et la planification urbaine et territoriale. Son objectif principal est de fournir un référentiel commun permettant d'analyser les tendances, de prendre des décisions éclairées et de développer des services et des politiques publiques adaptées aux besoins locaux, tout en rationalisant les processus administratifs et en réduisant les coûts associés à la collecte et à la gestion des données. L'adoption d'un format standardisé pour la publication des données, encouragée par le SCDL, simplifie l'intégration et la fusion des données, facilitant ainsi l'agrégation et l'analyse. En outre, cela incite les producteurs de données à améliorer leur qualité et favorise l'exploitation des données publiées par un large éventail d'utilisateurs. Actuellement, la plateforme data.gouv.fr recense 156 jeux de données conformes au standard SCDL, soulignant l'impact positif de cette initiative sur la disponibilité et l'utilisation des données publiques.
Si on prend l’exemple de la Communauté urbaine de Grand Poitiers, l’organisation principale (Grand Poitiers) utilise des schémas de référence avec ses différents départements (ici, les communes composant la Communauté urbaine). Chaque commune gère son ensemble de données en respectant les schémas de référence et peut ainsi contribuer à enrichir le jeu de données virtuel que l’organisation a agrégé. La visualisation ci-contre illustre ce scénario avec le jeu de données des subventions.
Remontée des adresses des communes au niveau national
La base adresse nationale (BAN) est l’une des neuf bases de données du service public des données de référence. Elle est la seule base de données d’adresses officiellement reconnue par l’administration. Bases adresses locales (BAL) est un programme de l'ANCT (Agence nationale de cohésion des territoires) destiné aux communes. Elle permet aux collectivités et aux communes de référencer toutes leurs adresses pour offrir de meilleurs services à leurs administrés et, ainsi, se valoriser.
La BAN est alimentée à partir des BAL : les communes peuvent remonter leurs données de leur base adresse locale vers la BAN en respectant les schémas. Pour que l’alimentation se déroule bien, il faut donc respecter le même format.
Il existe plusieurs manières pour les communes de remonter les adresses :
- Elles peuvent les déposer sur data.gouv.fr, où un moissonneur vient les récupérer pour les déposer dans la BAN ;
- ou bien elles les envoient directement dans la BAN à l’aide d’une API.
Pour l’instant la remontée se fait la plupart du temps avec un moissonneur qui vient à intervalles réguliers effectuer différentes actions pour maintenir les informations à jour (mise à jour de la liste des sources, moissonnage automatique des sources…). Cependant, même si cette méthode fonctionne, elle n’est pas la meilleure. En effet, le traitement n’étant pas immédiat, la remontée d’erreurs est difficile, voire impossible. L’API de dépôt est la méthode recommandée pour plusieurs raisons : elle garantit une prise en compte immédiate des données et, ainsi, offre un rapport d’erreurs ; elle permet de renforcer le rôle des communes. C’est la méthode que Koumoul va s’efforcer de mettre en œuvre.
Conclusion
Les schémas permettent d’améliorer la remontée d’info une approche ascendante (bottom-up). Schema.data.gouv.fr publie des formats à partir desquels nos utilisateurs peuvent créer des jeux de données. Nous offrons un formulaire de saisie pour mettre ces jeux de données au bon format. Mais nous continuons d’avancer sur le sujet. Nous allons notamment bientôt supporter de remonter des schémas de données depuis schema.data.gouv.fr sur notre plateforme. Nous prévoyons de simplifier l’import des schémas sur la plateforme : créer un jeu de données éditable à partir d’un schéma téléchargé depuis schema.gouv.fr, grâce au formulaire d’édition.