Accès par API à la base Sirene enrichie

Updated 23/02/2017 by Nicolas Bonnel

La base Sirene de l'INSEE rassemble des informations économiques et juridiques sur environ 10 millions d’établissements appartenant à tous les secteurs d’activité. Depuis le 4 janvier 2017, elle est disponible en accès libre et téléchargeable à cette addresse. Elle permet notamment de faire des études de marché, de la prospection, de la veille ou des référentiels de fournisseurs.

Problématique

Le format de téléchargement est un fichier CSV de plus de 10 millions de lignes qui correspondent a plus de 8 Go de données. Le fichier est tellement gros qu'il est impossible de l'ouvrir dans un tableur comme Excel pour pouvoir l'analyser.

La solution : une API dédiée

La construction d'une API au dessus de cette base permet de rendre les données accessibles à tout le monde. Grâce à des requêtes adaptées, les utilisateurs ne peuvent récupérer que les informations qui les intéressent : les données sur une zone particulière ou un secteur d'activité spécifique. Ces données restreintes sont plus légères et plus facilement utilisables, l'utilisateur peut même récupérer uniquement les champs qui l'intéressent. Il n'y a ainsi besoin que d'un nombre limité de serveurs ayant des capacités importantes pour pouvoir gérer cette base pour un nombre d'utilisateurs qui est lui beaucoup plus important.

Des données toujours à jour

Un autre avantage est que si les services sont mis à jour, les données servies par l'API sont toujours fraîches. Un nombre limité de personnes s'occupe de gérer les mises à jour de la base pour le bénéfice d'une base usagers beaucoup plus large. Les usagers n'ont pas à modifier leurs requêtes ou leurs applications, ce sont les données qui évoluent.

La problématique de la mise à jour est d'autant plus pertinente avec la base Sirene qu'il n'est pas du tout simple de gérer les mises à jour sur un poste client classique. Les mise à jours sont disponibles sous forme de fichiers journaliers, et tout les mois un fichier stock est disponible. Cela veut dire que pour avoir l'état correct de la base le 20e jour du mois, il faut avoir traité le fichier stock du début du mois plus les 19 autres fichiers de mise à jour.

Des croisements avec d'autres données pour une haute valeur ajoutée

Le dernier intérêt de servicialiser l'accès à ce genre de donnés est qu'elle peuvent être enrichies par le fournisseur de service. Dans le cas de la base Sirène, les données mentionnent des adresses, mais pas de coordonnées. Il est donc impossible de les placer sur des cartes pour faire de l'analyse spatiale avec des outils cartographiques.

Pour qu'elles aient plus de valeurs, nous avons enrichit les données de cette base : elle sont maintenant géolocalisées, nous rajoutons des informations venant d'Infogreffe et nous enregistrons toutes les évolutions de chaque enregistrement dans le temps. Au lieu d'avoir l'image de l'état présent, nous pouvons reconstituer des dynamiques temporelles. Vous pouvez ainsi analyser des évolutions dans un secteurs d'activité et une zone géographique donnée.

La création d'applications facilitée

La création d'une API dédiée permet de créer plus facilement des applications ou des visualisations. On peut par exemple imaginer une application de géomarketing qui en fonction d'une zone géographique et d'un secteur d'activité va faire apparaître sur une carte toutes les entreprises concernées.

Pour aller plus loin