Tutoriel : Mettez en forme vos fichiers avec OpenRefine
Pour être publiées et réutilisées sur une plateforme de données, les fichiers doivent être bien structurés. Malheureusement, les différents fichiers que vous pouvez trouver sur internet n'ont pas tous le même format et ne sont pas faciles à réutiliser.
Dans ce tutoriel, nous allons procéder à une mise en forme d'un des fichiers de l'INSEE sur l'évolution des salaires en France pour pouvoir le réutiliser sur la plateforme Koumoul.
A la fin de ce tutoriel, vous aurez le même fichier que celui utilisé pour cette visualisation :
Evolution des salaires en France par région - 1966/2010
Nous allons utiliser le fichier des salaires selon le sexe et la région de résidence de 1966 à 2010 (fichier TC07 qui est l'avant dernier fichier de la page de l'INSEE).
Pour réaliser cette mise en forme nous allons utiliser deux logiciel, OpenOffice et OpenRefine. Avec OpenOffice nous allons créer un fichier CSV à partir du fichier XLS et avec OpenRefine nous allons transposer des colonnes en lignes pour avoir toutes les valeurs de montant dans une seule colonne.
Voici le processus, que nous allons décrire, dans une vidéo de 2 minutes :
Créer votre CSV avec OpenOffice
Dans un premier temps, nous allons ouvrir le fichier SLS2010_TC07.xls des salaires avec le tableur de OpenOffice.
Ce fichier contient des colonnes et des lignes fixes. Pour enlever ce mode, allez dans le menu Fenêtre puis décochez l'option Fixe. Nous allons ensuite enlever les 3 premières lignes et les dernières colonnes qui ne font pas partie des données qui nous intéressent. Renseigner les deux premières colonnes comme la Colonne Année et la colonne Sexe puis supprimer toute ligne vide.
Lorsque vous avez terminé cet étape vous obtenez un fichier qui correspond au tableau ci dessous, qu'il faut sauvegarder sous format texte CSV (.csv) avec codage de caractères en UTF-8.
Transposer les colonnes en lignes avec OpenRefine
Nous allons créer un nouveau projet sous OpenRefine pour manipuler notre fichier CSV.
Sélectionnez le fichier CSV que vous venez de sauvegarder et cliquer sur suivant. Le fichier va être analysé et OpenRefine vous présente un aperçu. Vous pouvez choisir un nom pour votre projet, ici nous avons laissé le nom de base "SLS2010_TC07 csv". Choisissez UTF-8 comme format de caractères. L'aperçu est mis à jour et les valeurs sont désormais lisibles et correspondent aux valeurs de notre fichier.
Nous allons compléter les cases vides de la colonne année : cliquez sur le triangle de la colonne Année et sélectionnez Recopier les valeurs dans les cellules vides consécutives dans l'édition des cellules.
Ensuite, nous allons transposer les colonnes en lignes : cliquez sur le triangle de la colonne et sélectionnez Transposer les cellules de plusieurs colonnes en lignes. Une nouvelle fenêtre apparaît avec comme valeur de départ l'Alsace et valeur de fin Last column, gardez ces deux valeurs.
Choisissez le nom de vos deux nouvelles colonnes, ici nous avons choisi Région et Montant, puis cochez la case Remplir les autres colonnes.
Votre fichier comporte maintenant 3510 lignes (entrées).
Nous allons modifier les valeurs de la colonne montant pour n'avoir que des numéros dans cette colonne : cliquez sur le triangle de la colonne Montant, puis sélectionnez Facette Textuelle dans Facette. Une nouvelle fenêtre sur votre gauche va être affichée. Cliquez sur compte pour avoir le décompte des valeurs de la colonne Montant. Sur la ligne du tiret avec 438 valeurs, cliquez sur éditer, puis supprimez le tiret. Faites la même manipulation pour les 9 valeurs de la ligne "so".
Vous avez maintenant une colonne ne contenant que des nombres.
Sauvegardez votre fichier à l'aide du bouton Exporter en haut à droite. Choisissez Valeurs séparées par des virgules pour sauvegarder votre fichier au format CSV.
Vous pouvez télécharger ici notre fichier et le comparer avec le votre.
Un fois que vous avez votre fichier CSV sauvegardé vous pouvez le charger sur la plateforme Koumoul et réaliser diverses visualisations.