dimanche, 17 novembre 2024

La stat en carrés

Nous entamons ici une série d’articles sur les nouvelles données carroyées de l’INSEE. Dans ce premier article, et sans répéter l’importante documentation disponible, nous allons essayer de décrire simplement en quoi consistent ces données. Nous aborderons ensuite l’application de ces données aux réflexions en matière de zonage Politique de la Ville.

 

Eloge de la maille

Ca fait déjà quelques temps que la technique du carroyage a montré l‘intérêt de disposer de données sous une forme qui permet de faire abstraction des zonages existants et communément utilisés comme les contours communaux ou les zonages règlementaires tels que les quartiers inscrits dans des dispositifs politique de la Ville. Ces données permettent donc :

  • d’éviter les distorsions liées aux représentations selon un contour prédéfini et pas toujours homogènes (iris, communes, unités urbaines, etc de surface et de poids de population très différents), et de représenter ainsi le territoire de manière continue,
  • et de faciliter les comparaisons dans l’espace et le temps.

Par contre il faut bien avoir en tête que ces carreaux ne peuvent pas être utilisés individuellement. C’est la représentation plus ou moins continue des phénomènes qui nourissent les analyses. La cartographie constitue ainsi un outil essentiel pour l’exploitation des données carroyées.

La maille est un mode de représentation des données, éminemment statistique, et au service des analyses spatiales. Elle offre à l’oeil une représentation régulière du territoire qui facilite la lecture et les comparaisons, en particulier pour toutes les informations à caractère spatial marqué : distribution de phénomènes comme les densités par exemple.

Données statistiques européennes

L’INSEE a engagé des réflexions en ce sens depuis 2006. Il s’agissait notamment d’offrir des données visualisables et comparables à l’échelle européenne. Ce qui explique d’ailleurs le choix d’une projection spécifique, applicable à toute l’Europe : il s’agit du LAEA, Lambert Azimutal Equal Arera Projection. Bien que l’on retrouve le terme Lambert, cette projection n’a rien à voir avec notre projection légale, le Lambert 93, ce qui explique que les carreaux fournis par l’INSEE ne soient pas orientés comme nos cartes.

Comment sont construites ces données ?

Avant d’utiliser ces fameux carreaux, il est important de comprendre comment ils ont été construits.
Les données statistiques, bien que traitées par l’INSEE ne viennent pour l’instant pas du recensement mais de la « DGFIP », Direction Générale des Finances Publiques, feu « DGI » ou Direction Générale des Impôts, les impôts dans le langage courant.
Leur géolocalisation est plus complexe qu’il n’y parait. Il s’agit non pas de récapituler les données à la commune, tel qu’il est le cas pour la majorité des données statistiques, mais de les attacher de manière plus fine, géographiquement parlant, à la parcelle ou à l’adresse.
Pour les communes de plus de 10 000 habitants la localisation a pu s’appuyer sur le « RIL », répertoire d’immeuble localisé, utilisé pour le recensement par sondage initié depuis 2004.  Pour les communes plus petites, le rattachement géographique s’est plutôt fait à la parcelle, en utilisant le cadastre, via la taxe d’habitation.

Carreaux et rectangles

Les données sont livrées sous forme de deux fichiers : un de carreaux de 200 mètres et un de rectangles de surfaces inégales. Les carreaux de référence ne contiennent que très peu de données : les identifiants géographiques du carreau et le nombre d’individus qu’il contient.
Afin de respecter les règles du secret statistiques, les autres variables statistiques sont fournies sous forme de rectangles qui agrègent plusieurs carreaux.
A ce niveau là, les variables diffusées sont plus nombreuses :
D’une part des variables « non traitées » fournissant le nombre total d’individus, le nombre de ménages c’est à dire de résidences principales au sens des impôts, c’est à dire de la DGFIP , la répartition par classes d’âge, le nombre de ménages de 5 personnes et plus, le nombre de ménages présents depuis 5 ans ou plus dans leur logement actuel, le nombre de ménages en logement collectif, les surfaces des résidences principales.
La somme des revenus fiscaux « winsorisés » tels qu’on va l’expliquer dans la partie suivante.
Et enfin des variables dites traitées avec le nombre de personnes de plus de 65 ans, idem pour les plus de 75 ans, les ménages d’une personne, les ménages propriétaires, et la part des bas revenus.
Le fichier de rectangles doit être considéré comme un fichier intermédiaire qui ne doit pas être utilisé en tant que tel, en particulier pour des cartes.en particulier pour des cartes  d’effectifs, du fait des surfaces variables des rectangles.

Quid du secret statistique ?

Ça a été le feuilleton de l’année 2013 : où étaient les données carroyées ? L’INSEE a été obligé de suspendre leur diffusion le 27 mars 2013 suite à une erreur technique ayant conduit à un problème de respect du secret statistique. Ce « lièvre » a été soulevé par le Canard Enchainé dès février.

L’INSEE a donc remplacé la technique initiale du brouillage par une méthode consistant à regrouper les carreaux de moins de 11 ménages en rectangles contenant au moins 11 ménages. La variable de revenu a été traitée par une technique de « winsorisation »visant à traiter les valeurs extrêmes, traitement appliqué au niveau des individus dans le fichier initial.

De la même manière une série de variables considérées comme sensibles ne sont pas diffusées partout avec l’effectif réel; l’analyse doit se faire en regardant la variable associée qui précise la « qualité » de la données : effectif réel (0), égale ou supérieur (1), inférieure ou égale (2). Et il s’agit là de variables à priori très intéressantes : personnes de plus de 65 ans, ménages d’une personne, propriétaires, et nombre de ménages se situant en dessous du seuil de bas revenus.

Comment utiliser les carreaux de l’INSEE ?

Il faut d’abord charger deux séries de données :

  • d’une part les carreaux et leurs données associées
  • d’autre part des rectangles et leurs données associées

Ces données sont fournies à l’échelle France entière ce qui fait apparaître tout de suite une première difficulté liée au poids de ces données.
Pour ramener les données au carreau, il faut faire le lien entre chaque carreau et les données et recalculer ensuite chaque information au prorata de la population concernée.
Les données fournies permettent facilement de faire le lien entre carreaux et rectangles. Le traitement se fait d’abord en associant les données liées au carreau et celles liées au rectangle et en calculant ce prorata.
Il s’agit donc de construire un nouveau fichier de carreaux, en répartissant les données en fonction de leur poids de population respective.

Si vous n’avez pas le courage ou le temps d’intégrer vous même directement les données carroyées de l’INSEE, vous pouvez utiliser la carte créée par Etienne Come http://www.comeetie.fr/galerie/francepixels/#.

 

Pour aller + loin :
http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=donnees-carroyees
http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=donnees-carroyees&page=donnees-detaillees/donnees-carroyees/donnees_carroyees_carroyage.htm

 

Les discussions sur le GeoRezo :

Carroyage INSEE à 200m pas carré en Lambert 93…

Données carroyées INSEE et décalage de position
Données carroyées de la population 200m

 

A suivre : Redessiner les contours de la politique de la Ville

Article rédigé avec l’aide de Benoit et Brigitte

Laisser un commentaire


Commentaires RSS TrackBack 3 commentaires

XavierL

le 25 juillet 2014

Il clair que la statistique appliquée au carroyage est une première marche qu’a franchit l’INSEE dans l’analyse de données vers une échelle plus proche de celle issue des fichiers fonciers.

Par ailleurs Aline, en admettant que l’INSEE fournisse un jour des données à l’échelle parcellaire (certes, je ne suis pas sûr que ça existera un jour), à quelles données vous fieriez-vous?

Je pose cette question, notamment parce que je suis en train d’effectuer un certains nombre de statistiques liées à la problématique de l’habitat, et face au choix de certaines données plus que d’autres j’ai quelques doutes. Avez-vous eu à traiter les données de l’INSEE et du recensement sur cette problématique et qu’en pensez-vous?


AlineC

le 12 août 2014

Xavier,
Voilà des interrogations auxquelles il m’est difficile de répondre de manière simple.
Moi j’ai l’impression que l’INSEE ne pourra pas aller vraiment loin dans l’exploitation des données fiscales car ce sont des données spécifiques, métier d’une certaine façon. A moins de développer une véritable méthodologie sur l’exploitation statistiques de données métiers ! Mais ce n’est que mon humble avis.
Pour ce qui concerne l’habitat pour ma part j’utilise directement les données de la matrice que je traite moi-même à l’image de ce qui est présenté sur le blog « Parcell’air ». Vous pouvez également regarder ce que j’ai mis sur mon blog perso en matière d’observation de l’habitat. Ou également à travers le « guide des observatoires de l’habitat » que j’ai abordé ici.
Si vous souhaitez que l’on poursuive cette discussion le mieux serait d’ouvrir un fil de discussion sur le georezo, sur le forum données …
A bientôt.
AlineC


TrackBack

Redessiner les contours de la Politique de la Ville » Le blog SIG & URBA

[…] urbaines de pauvreté ». Des agrégats de carreaux sont constitués (voir notre article précédent), devant rassembler au moins 1 000 personnes et dont le revenu médian doit être inférieur à un […]

- Faire un don - Contact - Mentions légales -