Construire un jeu de données
REX de l’hackaviz 2018
Alain Ottenheimer - 5 juillet 2018
Objectif:
- Créer un fichier contenant des données provenant de plusieurs fichiers open data.
- Les données concernent toutes les communes de la région Occitanie.
Données économiques (Nb d’entreprises créées dans les communes dans le secteur informatique - base sirene)
Données historique de la population
Données population
Données sociales et fiscales
Données résultats électoraux
Données réseau routier
Les points durs identifiés
- Les données sont dans plusieurs onglets du fichier excel
- La variation du nombre de communes diminue dans le temps
- La manipulation du fichier sirene qui contient plusieurs millions de lignes
- La construction du code commune (insee) dans certains fichiers
- Le traitement préalable des fichiers pour trouver l'information
- La manipulation des différents formats de fichier (xls, csv, geojson)
Les outils utilisés
- Tableur (excel) pour visualiser rapidement les fichiers .csv
- python + notebook jupyter pour traiter les données (logiciel libre)
- Mysql + MySql workbench pour manipuler le fichier sirene et extraire des données (logiciel libre)
- Qgis pour construire un fichier geojson (logiciel libre)
Open Data
- Des fichiers par dizaines de milliers! (ex open data gouv)
- Il faut aimer faire des recherche sur le web.
Prétraitement des données historique de population
Reconstruire un fichier .csv à partir de plusieurs onglets d’un fichier .xls
Prétraitement des données électorales
Rechercher le candidat arrivé en tête et son pourcentage de voix à partir d’un fichier qui donne les résultats de chaque candidat par commune
Prétraitement des données sirene des entreprises
A partir de l’extrait de la base de données, rechercher le nombre d’entreprises créées chaque année dans les communes pour créer une série temporelle.
Construction du fichier hackaviz 2018 en .csv
Merge de l’ensemble des fichiers de données sur les communes
Construction d’une base de données MySql pour les gros fichiers
Importation des données sirene dans une base données MySql en local
Construction du fichier hackaviz en geojson
Utilisation de QGIS
Synthèse
- Data wrangling = 80% du temps en dataviz : c’est pas faux!
- Python + Notebook Jupyter facilite le travail (réutilisation, maitrise des calculs, testabilité)
- beaucoup d’outils + beaucoup de fichiers = être méthodique
- QGIS est un bon outil pour les visualisations cartographiques et offre beaucoup de fonctionalités intéréssantes notamment pour créer des .geojson