Des nouveaux traitements de données automatisés pour Data Fair

Contenu de l'article

Des nouveaux traitements de données automatisés pour Data Fair

La solution open source Data Fair permet à ses utilisateurs de partager leurs données en interne ou en open data, au travers de portails de données et de visualisations. Notre plateforme de données est basée sur cette solution, que nous mettons à disposition de nos clients en mode SaaS.

En complément, nous diffusons des flux de données open data, normalisés, qui permettent à nos utilisateurs d'avoir accès à des données sur étagère au sein de notre plateforme.

Cela sert trois cas d'usage :

Pouvoir enrichir ses propres données à partir de données issues de l'open data (par exemple, compléter des informations à partir d'un numéro SIREN).
Pouvoir réexposer ces jeux de données, en les filtrant éventuellement, sur son propre portail de données (par exemple, fournir la liste des entreprises d'un département).
Pouvoir utiliser les données dans ses propres applications au travers des API que nous mettons à disposition. Une fois le branchement effectué, l'utilisateur n'a plus grand chose à faire, car les données sont mises à jour automatiquement.

L'automatisation des tâches d'intégration de ces données au sein de notre plateforme occupe donc une place importante dans notre organisation.

Data Fair permet de mettre à jour régulièrement des jeux de données en paramétrant des traitements périodiques. Lors du paramétrage d'un traitement, on définit le plugin que l'on souhaite utiliser, la fréquence d'exécution du traitement (annuel, mensuel, journalier, voire toutes les heures), ainsi que d'autres options qui peuvent varier d'un plugin à l'autre.

Le plugin le plus utilisé est celui qui permet d'aller chercher un fichier à distance (via HTTP, FTP ou autre) et de l'utiliser pour la mise à jour d'un jeu de données. Le cas d'usage classique est l'intégration d'un fichier produit au travers d'un ETL (Extract Load Transform), mais il est aussi possible de réaliser des mises à jour régulières de fichiers publiés sur une plateforme de données comme data.gouv.fr.

Certaines sources de données nécessitent cependant un retraitement avant publication, soit parce que le fichier n'est pas dans le bon format, soit que l'on souhaite le compléter avec d'autres sources de données. C'est dans ce contexte que nous avons accueilli, il y a quelques mois, deux stagiaires de l'IUT de Vannes, Benjamin Giraud-Renard et Philippe Laidin, qui ont travaillé sur la création de nouveaux plugin Data Fair pour intégrer de nouvelles sources de données et les mettre à jour automatiquement.

Prix des carburants

Les prix des carburants sont disponibles sous la forme d'un flux instantané XML mis à jour toutes les 10 minutes.

Dans un souci d'équilibre entre fréquence de mise à jour et capacité de calculs utilisés, nous avons choisi de faire la synchronisation toutes les 3 heures. En plus de l'état actuel, le jeu de données produit garde un historique des modifications effectuées lors des 30 derniers jours, ce qui permet d'avoir l'évolution récente des prix de carburants d'une station.

Il est à noter qu'un fichier CSV est maintenant aussi disponible sur data.gouv.fr, mais il est apparu après que nous ayons développé le plugin.

Les données peuvent être récupérées dans un format cartographique depuis notre plateforme, ce qui permet leur intégration de manière assez directe. Cela peut servir des cas d'usages, comme les plateformes de télématique.

Base Sitadel

La Base des permis de construire et autres autorisations d'urbanisme met à disposition du public une large partie des informations concernant les autorisations d’urbanisme renseignées dans la base de données Sitadel. Les données sont mises à jour une fois par mois.

Le premier apport du traitement réalisé est d'obtenir, pour chaque type de permis, un fichier d'historique ayant un format unique et couvrant la plus longue période possible à partir des données fournies.

Le second apport est une normalisation du code parcelle (permettant des croisements avec d'autres données de référence) et une géolocalisation de celles-ci. Les données présentent quelques erreurs de saisie, et certaines informations ne sont pas tout le temps renseignées, ce qui aboutit à une précision de la normalisation du code parcelle (et donc du géocodage) d'un peu plus de 90 %.

Les quatre jeux de données produits sont disponibles sur notre portail open data, avec des cartes interactives et une possibilité de réaliser des exports filtrés via la vue tableau.

Répertoire national des certifications professionnelles et répertoire spécifique (RNCP/RS)

Le Répertoire national des certifications professionnelles et répertoire spécifique contient la liste des certifications permettant de valider des compétences et des connaissances acquises, nécessaires à l’exercice d’activités professionnelles.

Les données sont publiées sous 2 formats : un flux XML qui est assez exhaustif mais compliqué à utiliser pour des personnes non techniques, et une archive ZIP contenant plusieurs fichiers CSV, mais dont la navigation n'est pas aisée, car il faut refaire des jointures.

Nous avons opté pour une conversion du flux XML en CSV pour essayer d'avoir le meilleur des deux mondes. Le résultat est librement consultable et téléchargeable depuis cette page.

Répertoire national des élus (RNE)

Le Répertoire national des élus a pour finalité le suivi des titulaires d’un mandat électoral. Il est renseigné et tenu à jour par les préfectures et par les services du ministère de l'intérieur.

Les données sont publiées sous la forme de neuf fichiers CSV, un par mandat. Nous avons choisi de les retravailler et de les fusionner dans un seul fichier. Par rapport aux données initiales, les modifications suivantes ont été apportées :

seuls les champs en commun entre les neufs fichiers originaux ont été conservés ;
les personnes n'apparaissent qu'une fois et sont identifiées par leur prénom, leur nom et leur date de naissance ;
des champs ont été calculés (âge, nombre de mandats et de fonctions occupées) ;
les données ont été normalisées avec des dates ISO et un format de fichier standard (CSV encodé en UTF-8).

Bulletin officiel des annonces civiles et commerciales (Bodacc)

Le Bodacc, régi par l’article R123-209 du Code du commerce, publie les avis prévus par ce Code et les textes législatifs ou réglementaires. Ces annonces légales sont émises par les greffes des tribunaux de commerce, les tribunaux civils à compétence commerciale ou les mandataires judiciaires.

Les données sont publiées sous format XML, ce qui les rend difficilement exploitables pour les personnes utilisant principalement un tableur. Une API en bêta est également disponible, et il est possible de faire des exports au format Excel, mais certaines colonnes contiennent des données au format JSON, ce qui complique la lecture.

Nous avons opté, de notre côté, pour la production de six jeux de données, ce qui permet de traiter les différences de schéma entre les types d'annonces et d'éviter d'avoir des fragments de JSON dans la donnée. De plus, certains métiers ne sont intéressés que par certains types d'annonce (les actes de ventes, par exemple) et nous pensons que ce découpage leur facilite la réutilisation des données.

Le mot de la fin

L'automatisation de traitements d'import de données est une tâche qui ne s'arrête jamais. De nouvelles sources de données sont régulièrement publiées et certaines sources de données évoluent dans leur format de publication et demandent des adaptations dans les traitements.

Ces tâches d'automatisation, de structuration et de normalisation des données est un aspect essentiel du métier d'ingénieur de données. Cela permet de contribuer à la construction d'une infrastructure de données solide sur laquelle on peut ensuite bâtir d'autres traitements de données et d'autres services.

Nous espérons que cet article vous a permis d'appréhender un peu mieux certains aspects de notre métier. N'hésitez pas à nous contacter si vous souhaitez échanger sur le sujet !