Construire un jeu de données

REX de l’hackaviz 2018

Alain Ottenheimer - 5 juillet 2018

Objectif:

  • Créer un fichier contenant des données provenant de plusieurs fichiers open data.
  • Les données concernent toutes les communes de la région Occitanie.

    Données économiques (Nb d’entreprises créées dans les communes dans le secteur informatique - base sirene)
    Données historique de la population
    Données population
    Données sociales et fiscales
    Données résultats électoraux
    Données réseau routier

Les points durs identifiés

  • Les données sont dans plusieurs onglets du fichier excel
  • La variation du nombre de communes diminue dans le temps
  • La manipulation du fichier sirene qui contient plusieurs millions de lignes
  • La construction du code commune (insee) dans certains fichiers
  • Le traitement préalable des fichiers pour trouver l'information
  • La manipulation des différents formats de fichier (xls, csv, geojson)

Les outils utilisés

  • Tableur (excel) pour visualiser rapidement les fichiers .csv
  • python + notebook jupyter pour traiter les données (logiciel libre)
  • Mysql + MySql workbench pour manipuler le fichier sirene et extraire des données (logiciel libre)
  • Qgis pour construire un fichier geojson (logiciel libre)

Open Data

  • Des fichiers par dizaines de milliers! (ex open data gouv)
  • Il faut aimer faire des recherche sur le web.

Prétraitement des données historique de population

Reconstruire un fichier .csv à partir de plusieurs onglets d’un fichier .xls

Prétraitement des données électorales

Rechercher le candidat arrivé en tête et son pourcentage de voix à partir d’un fichier qui donne les résultats de chaque candidat par commune

Prétraitement des données sirene des entreprises

A partir de l’extrait de la base de données, rechercher le nombre d’entreprises créées chaque année dans les communes pour créer une série temporelle.

Construction du fichier hackaviz 2018 en .csv

Merge de l’ensemble des fichiers de données sur les communes

Construction d’une base de données MySql pour les gros fichiers

Importation des données sirene dans une base données MySql en local

Construction du fichier hackaviz en geojson

Utilisation de QGIS

Synthèse

  • Data wrangling = 80% du temps en dataviz : c’est pas faux!
  • Python + Notebook Jupyter facilite le travail (réutilisation, maitrise des calculs, testabilité)
  • beaucoup d’outils + beaucoup de fichiers = être méthodique
  • QGIS est un bon outil pour les visualisations cartographiques et offre beaucoup de fonctionalités intéréssantes notamment pour créer des .geojson