En mai 2019, je saluais sur ce blog l’ouverture en opendata et donc en accès libre des données « DVF » c’est à dire les données sur les transactions immobilières et foncières.
Entretemps j’ai pu découvrir dans ma propre pratique professionnelle que ces données en opendata n’étaient pas complètes par rapport aux données d’origine. En particulier, elles ne fournissent pas ce que j’appellerais ici la clé foncière, par analogie avec la clé parcellaire, qui permet de structurer ces données. C’est toute la difficulté de l’opendata entre volonté d’ouverture et protection des données personnelles !
En effet, les données de valeurs foncières « DVF » ne peuvent être utilisées « telles quelles » ou « à plat », sinon les traitements font ressortir des données fausses et des répétitions. En faisant simple : comme les données cadastrales, les données foncières en brut présentent autant de lignes répétées que de locaux principaux et secondaires et de parcelles faisant l’objet d’une même disposition.
Grace au Groupe National DVF, constitué depuis 2012 dans la lignée des travaux précédemment engagés dans le cadre de l’ADEF, cette difficulté peut être oubliée. Ces travaux ont permis d’organiser le traitement des données au travers d’une version améliorée de DVF appelée DVF+ portée par le CEREMA.
DVF+
La version opendata de DVF+ reprend l’ensemble des champs présents dans la donnée source « DVF version opendata « et permet :
- de géolocaliser les transactions à la parcelle
- de structurer DVF selon un modèle de données partagé en 12 tables principales et de caractériser les biens, ce qui est indispensable pour procéder à des analyses foncières et immobilières pertinentes : il s’agit de ne pas mélanger indistinctement des choux et des carottes, et plus globalement le neuf et l’ancien car les volumes et les prix ne sont pas comparables, …
Du fait de la disparition des champs d’identification de la mutation et du local dans la donnée open-data, des identifiants fictifs ont été reconstitués à la place des identifiants réels. DVF+ open-data est téléchargeable gratuitement sous différents formats :
- Fichiers SQL pour intégration de l’ensemble des données DVF dans une base de données PostgreSQL/Postgis structurée dans le modèle DVF+ (17 tables + données brutes DVF). L’intégration dans la base postgres se fait à l’aide de l’application AppDVF, mise à disposition elle aussi gratuitement
- Fichiers simples 1 ligne – 1 mutation, directement utilisables en format SIG Geopackage (.gpkg), ou en format tableur (.csv). Dans ces 2 formats, chaque ligne correspond aux informations d’une vente, avec une géométrie associée dans la version SIG.
Le modèle DVF+ est donc constitué de 12 tables et de 5 tables annexes :
- Parmi elles, la table « mutation » est centrale car elle contient les éléments de prix (la fameuse « valeur foncière ») et synthétise en une ligne les éléments caractéristiques de la vente (champs calculés par le Cerema).
- Pour une analyse plus fine, il conviendra de requêter sur les autres tables du modèle renseignant sur le détail des dispositions. Deux tables détaillent notamment le ou les locaux au sens fiscal du terme, et la ou les parcelles concernées par la transaction.
DV3F
La donnée DVF ou DVF+ reste cependant insuffisante pour analyser la complexité du marché foncier et immobilier. La valeur d’un bien se construit en effet en grande partie sur ses caractéristiques propres (nombre de pièces, année de construction, nature détaillée des locaux…) et sur le contexte de la vente (informations sur l’acquéreur et le vendeur, informations sur la destination du bien après la vente…).
Pour pallier à ce constat, le Cerema expérimente depuis 2015 un nouveau modèle de données : DV3F, qui croise la donnée DVF et les Fichiers Fonciers (retraitement des données MAJIC qu’il produit annuellement). Reprenant la même structure que DVF+, le modèle DV3F est plus riche (13 tables principales et 7 tables annexes dans le format v4 actuel) et concentre lui aussi sur les informations essentielles d’une vente sur la table mutation (130 variables + géolocalisation à la parcelle).
Par ses nombreuses variables, il permet d’affiner la description physique des biens objets de la vente (année de construction notamment), propose une typologie de ces biens (celle du GnDVF) et apporte des informations sur le type de propriétaire avant/après (typologie, raison sociale des personnes morales…).
Pour cette base enrichie la donnée n’est pas ouverte à tous. Ce format est disponible depuis 2020 à l’ensemble des ayants-droits des Fichiers Fonciers (essentiellement les collectivités publiques).
En résumé :
[DGFiP] DVF opendata, 07/2015 à 06/2020, 1 fichier texte France entière par année, mise à jour semestrielle (avril/octobre) : une version « brute » et volumineuse difficile à utiliser ; https://www.data.gouv.fr/fr/datasets/demandes-de-valeurs-foncieres/
[Etalab] DVF géolocalisé et normalisé, 01/2014 à 06/2020, 1 fichier csv par année et par commune, mise à jour semestrielle : géolocalisation (lat/lon) des parcelles mais toujours présence de doublons : https://www.data.gouv.fr/fr/datasets/demandes-de-valeurs-foncieres-geolocalisees/
[Cerema] DVF+ opendata, 01/2014 à 06/2020, 1 fichier par département, mise à jour semestrielle : une version structurée en format SQL ou « à plat » aux formats csv et shp : https://www.data.gouv.fr/fr/datasets/dvf-open-data/
[Cerema] DV3F format v4, janvier 2010 à décembre 2019 : une donnée structurée et enrichie à intégrer dans une base postgres/postgis, accessible aux ayants-droits : https://datafoncier.cerema.fr/donnees/donnee-dv3f
Et, en bonus, clé en main pour des recherches ponctuelles, la carte proposée par Etalab, s’appuyant sur la version DVF géolocalisée : https://app.dvf.etalab.gouv.fr/
Ces apports en données et en méthode sont complétés par toute une série de guides et tuto. En effet, l’accès apparemment facile à ces données ne doit pas faire oublier un certain nombre de principes à respecter :
- Celui du secret statistique avec des analyses à baser en toute logique sur au moins 11 valeurs.
- Extraire les ventes particulières. En l’occurrence un filtre a été créé pour repérer et exclure les biens rares ou des conditions de vente spécifique.
- Baser ses analyses sur des biens simples plutôt que sur des mutations complexes, mélangeant plusieurs logements ou plusieurs types de locaux.
- Et tenir compte des indications données dans la mutation sur la qualité de l’information : les terrains à bâtir sont potentiellement sous estimés et la construction neuve est également difficile à caractériser, en particulier les VEFA.
Pour aller + loin :
Le site du Groupe national DVF, présentant la donnée DVF et ses usages : https://www.groupe-dvf.fr/
Le tuto complet en version web : http://doc-datafoncier.cerema.fr/dv3f/tuto/
Toutes les ressources Dv3F : https://datafoncier.cerema.fr/ressources/donnee-dv3f
Et encore :
https://datafoncier.cerema.fr/donnees/autres-donnees-foncieres/dvfplus-open-data
https://georezo.net/forum/viewtopic.php?id=98688&p=2
https://www.oramaritima.fr/wp-content/uploads/2019/11/3-DV3F_Cerema_27sept2019.pdf
Débat sur le modèle : Forum GeoRezo / DVF : l’intégration facile proposée par le Cerema
Discussion sur l’accès aux données et la version opendata : Forum GeoRezo / DVF (Données de Valeurs Foncières) publiées en Opendata
Article rédigé avec les enrichissements de Julien Place et la lecture attentive d’Antoine et Bruno, merci à eux.