Réutiliser facilement les données OpenData grâce à DataFair

Updated 13/02/2018 by Nicolas Bonnel

Des jeux de données de référence ont été publiés récemment en OpenData grâce au Service public de la donnée, comme le cadastre ou la base Sirene des entreprises. Mais les fichiers de ces jeux de donneés sont tellement volumineux que la grande majorité des personnes, qui ne dispose pas des outils adéquats, ne peut pas les réutiliser. A moins d'avoir une machine très puissante, il n'est pas possible de charger les 10 millions de lignes et 100 colonnes de la base Sirene dans un tableur. Et même quand on y arrive, l'outil n'est pas du tout adpaté à la navigation et a la réutilisation d'un jeu de données de cette taille.

DataFair permet de connecter facilement ses propres données à ces données de référence, lorsqu'elle sont accessibles sous forme de service.

Contexte

Pour rendre ces jeux de données plus accessibles, nous avons créé des services d'accès sur le Web. L'intérêt premier pour l'utilisateur est de requêter facilement les données et de n'accéder qu'à ce qui l'intéresse. Il peut utiliser des filtres et faire une sélection des champs pour ne télécharger qu'un extrait du jeu de données. La mise à jour automatique des informations sans retraitement par l'utilisateur est un autre atout. L'accès aux données étant fourni par un service Web, les utilisateurs peuvent aussi concevoir des applications qui se connectent directement aux APIs exposées. Les APIs sont des outils nécessaires, elles permettent d'interopérer facilement et de manière puissante avec les données, cependant leur utilisation est limité à un public restreint que sont les développeurs.

Dans le cas de personnes non expertes, il n'est pas possible d'utiliser ces APIs directement et facilement. C'est pour cette raison que nous produisons des applications légères au dessus des services de données. Mais une tâche en particulier reste difficile: faire le lien entre les données publiques de référence et ses propres données.

Un outil qui sait interpréter les données de référence

Les tableurs sont conçus pour manipuler des données génériques. Au mieux on peut les typer en chaîne ou nombre, mais on ne peut pas décrire la valeur métier d'une donnée. Pourtant un code SIREN n'est pas qu'un code à 9 chiffre : il décrit une entreprise, et le fait de savoir cela permet des traitements particuliers, comme de l'enrichissement ou un affichage adapté.

Lorsque vous importez vos données dans DataFair, les entêtes de colonnes sont extraits automatiquement. Vous pouvez ensuite les renommer et ajouter une description plus verbeuse. Vous pouvez également décrire la valeur métier d'un champ en le typant plus précisément. Contrairement à un typage informatique traditionnel ou on parle de nombres entier, chaîne de caractère ou date, le typage va porter sur des concepts plus précis : code département, code parcelle, latitude, code Siret, ...

Ce typage est très important et est donc à réaliser de manière précise car c'est lui qui va permettre de faire le lien entre vos données et les données de référence.

A quoi ça sert ?

Quand les données ont des types métier, elles peuvent être enrichies ou être réutilisées directement dans certaines applications.

Toutes les données qui ont des paires de coordonnées lat/lon (sur une ou 2 colonnes) peuvent être projetées et agrégées sur des fonds de carte interactifs. Une multitude d'autres fonctionnalités sont également débloquées comme du calcul d'itinéraire ou une recherche par distance.

Les données qui ont un code correspondant à un territoire peuvent être projetées sur les cartes appropriées. Un code parcelle permet de projeter la donnée sur le plan cadastral, un code commune sur une carte du découpage administratif (comme par exemple pour les résultats de vote).

Enfin ce typage permet d'enrichir les données avec les services appropriés : on peut à partir d'un code Siret récupérer l'adresse ou l'activité d'un établissement, ou à partir d'éléments d'adresse récupérer des coordonnées géographiques. On peut ré-enrichir des données déjà enrichies : à partir d'un code Siret, récupérer l'adresse de l'établissement, puis a partir de cette adresse la position géographique, puis à partir de cette position, la parcelle cadastrale correspondante.

Pour aller plus loin

Si vous avez les connaissances techniques nécessaires, vous pouvez installer DataFair sur vos propres serveurs. Sinon vous pouvez utiliser une version déployée sur le Cloud que nous maintenons en vous inscrivant sur notre site. Ce service est très récent et nous effectuons régulièrement des améliorations dessus. Si vous rencontrez des difficultés ou si vous avez des remarques n'hésitez pas à nous contacter.