Les concepts, élément central de la plateforme Koumoul
Data Fair, la plateforme de Koumoul, permet d’indexer des données de type tabulaires ou géographiques, puis de les consulter au travers de tableaux ou de visualisations de données. Pour pouvoir être utilisées de manière optimale, les données ont un type technique qui a un impact sur la manière dont elles sont indexées : le texte sera de type chaîne de caractères pour pouvoir faire des recherches du type contient, voire des recherches approximatives. Les nombres seront indexés pour pouvoir être triés rapidement et permettre des recherches par intervalles, ainsi que des agrégations de type somme ou moyenne. Le typage technique des données est monnaie courante dans les applications informatiques.
Data Fair donne la possibilité d’aller encore plus loin en offrant un typage « métier » qui aide à mieux comprendre, manipuler et croiser les données entre elles. Cet article vous présente les concepts et toutes les possibilités qu’ils offrent. Cette notion a été imaginée à partir de celles sur le web sémantique, et nous avons essayé de simplifier tout cela pour une mise en œuvre plus facile et des performances supérieures.
Mieux comprendre les données
Un des objectifs auxquels répond Data Fair est la mise à disposition de données à disposition des réutilisateurs, en open ou close data. Pour faciliter cette réutilisation, il faut renseigner une description des données : c’est ce qu’on appelle les métadonnées. Il existe différentes informations, comme la licence des données ou leur couverture temporelle, ainsi que des informations sur les différents champs : c’est le schéma des données.
Ce schéma présente, pour chaque champ :
- le libellé associé (il arrive fréquemment que les champs soient représentés par des codes difficilement compréhensibles par tous) ;
- éventuellement une description longue qui aide à mieux comprendre les données de la colonne ;
- un type technique.
Même si un type métier peut être mentionné dans la description d’un champ, le fait que cette information soit dans un endroit spécifique contribue à mieux la mettre en évidence. Surtout, cela permet l’interopérabilité entre les systèmes informatiques et favorise des associations automatiques.
Des capacités d’API supplémentaires
Certains concepts offrent des possibilités supplémentaires avec l’API. Par exemple, tous les concepts qui ont trait à des dates permettent d’interroger le jeu de donnée en demandant les lignes valides à une date donnée : ainsi, on évite une requête plus complexe qui porterait sur un moment situé après une date de début et avant une date de fin.
Les concepts latitude, longitude ou géométrie permettent d’indexer spatialement la donnée et de demander toutes les lignes de celle-ci qui sont dans une boîte englobante ou dans le certain rayon d’un point. C’est notamment utilisé sur le site France Rénov pour trouver les artisans proches de chez soi.
Améliorer le formatage et la visualisation des données
Le typage métier des données obtenu au travers de l’utilisation de concepts permet de formater les données différemment. Par exemple, si on rajoute à un champ de type chaîne de caractères le concept de page web, on pourra créer un lien hypertexte pour naviguer vers l’URL décrite. De même, un concept image aide à comprendre que la chaîne de caractère fait référence à une URL vers une image et, ainsi, d’afficher une image. Le concept numéro de téléphone contribuera à formater la donnée de telle manière que, si elle est consultée sur smartphone, on puisse basculer vers un appel téléphonique en une interaction.
Les concepts facilitent également la configuration des visualisations de données. Il n’est, par exemple, possible de configurer des visualisations de carte à points qu’avec des jeux de données ayant les concepts latitude et longitude. Un diagramme timeline nécessite d’avoir les concepts date de début et date de fin. Certains éléments peuvent aussi être mieux affichés dans les visualisations grâce à ces concepts : ainsi, dans une fiche d’information que l’on obtient en cliquant sur un élément, on pourra afficher un titre en haut en utilisant le concept libellé.
Enrichir ses données à partir de données maîtres
Le deuxième cas d’usage des concepts est de pouvoir utiliser des données pour en compléter d’autres. Nous maintenons, de notre côté, un certain nombre de référentiels de données, mais nos clients peuvent également mettre en œuvre leurs propres référentiels. Certains enrichissements nécessitent plusieurs concepts, mais la plupart ne sont liés qu’à un seul. Comme ils permettent de mieux savoir de quoi on parle, les concepts permettent des jointures entre les différents jeux de données.
Nous vous présentons ici quelques exemples d’enrichissement possibles.
- Il est possible, en utilisant le concept code SIRET, de compléter son jeu de données avec des informations de la base Sirene : par exemple, obtenir le secteur d’activité, le nombre approximatif d’employés ou l’adresse de l’établissement. Avec un code commune, on peut récupérer des informations sur la population de la commune, l'EPCI ou département auxquels elle est rattachée, voir son contour géographique.
- En utilisant plusieurs concepts, comme le numéro de rue, le nom de rue et le code postal, il est possible de géocoder les données, ce qui permet de leur rajouter des latitudes / longitudes et de les visualiser sur une carte. D’un autre côté, en utilisant les concepts latitude et longitude, il est possible d’enrichir les données à partir des données maîtres géographiques et de trouver la parcelle cadastrale correspondant à cette position.
Agréger différentes sources de données dans un tableau de bord
Le troisième cas d’usage, qui est tout nouveau, est le fait de croiser différentes sources de données dans un tableau de bord. À partir d’une source de données avec certains concepts, il est possible d’afficher toutes les visualisations relatives à des données ayant ces concepts. À partir de la liste des communes, on peut afficher des données concernant une commune (équipements disponibles, population…), mais aussi son EPCI (calendrier de collecte des déchets) ou son département (fiscalité).
De même, il est possible d’afficher différentes informations sur une entreprise : la fiscalité de sa commune, grâce au code commune, et les subventions reçues ou les annonces légales associées, grâce à son code SIRET.
Pour plus d'informations sur les dashboards, vous pouvez consulter notre article : Les tableaux de bord débarquent sur Koumoul !
Pour conclure
Comme nous pouvons le constater, les concepts offrent de nombreuses opportunités pour mieux valoriser vos données. Nous mettons à disposition un vocabulaire qui couvre la plupart des usages, mais il est possible de le compléter par son propre vocabulaire, lié à son métier. On peut ainsi rajouter la notion de code client, capacité, prix ou code bâtiment. C’est ce qui a, par exemple, permis de réaliser un tableau de bord sur les bureaux de poste.
Nous espérons que cette présentation des concepts vous a donné quantité d’idées pour mieux valoriser vos données. Quoi qu’il en soit, si vous pensez que nous en avons oublié, n’hésitez pas à nous contacter ou à passer par le projet open source pour compléter la liste !