De la granularité des données
Pourquoi parle-t-on tant de granularité des données dans INSPIRE? C’est-à-dire, de la taille du grain de la donnée?
Les séries de données sont ce qui constitue l’alpha et l’omega d’une infrastructure de données géographiques. Seul détail : on ne sait pas vraiment ce que c’est, la définition étant très vague : « Compilation identifiable de données géographiques ». De la classe d’objet à la BDTopo de l’IGN, la marge est grande.
Puisqu’une série de données devra être conforme à des spécifications par thème, le CNIG a précisé cette notion de la façon suivante : « Un ensemble de données géographiques diffusées selon un thème dominant ». Pour reprendre l’exemple de la BDTopo, l’IGN a créé des métadonnées pour chacun des thèmes INSPIRE composant sa base.
Par ailleurs, dans le billet précédent, je rappelle qu’une série de données est « la diffusion du résultat l’effort de production » selon le Guide de gestion des catalogues du CNIG.
Mais, selon les cas et les producteurs, l’effort de production et cette diffusion peuvent être variables. Quoi de commun entre un Conseil général qui lève les pistes cyclables départementales, et un opérateur national qui compile l’ensemble des pistes cyclables?
L’analyse du Géocatalogue montre que la plupart des producteurs cataloguent un effort de production particulier directement comme série de données (par exemple, les permis éoliens du département) sans granularité de diffusion particulière. En effet, la plupart de ces données sont fabriquées spécifiquement dans le cadre de leur mission de service public, et la série est égale à l’ensemble de séries.
Pourtant, certains, dont je suis, estiment qu’à terme la gestion à la classe d’objet la plus fine s’imposera pour des raisons de suivi de la qualité (généalogie et mise à jour). Bien entendu, c’est inatteignable pour le moment vu la charge de saisie et de gestion qui en découlerait.
Le meilleur compromis est sans doute de cataloguer les données selon les couches que vous diffusez dans vos services WMS : c’est bien une diffusion particulière d’un effort de production, c’est un tri selon un message logique, et c’est pratique pour remplir les métadonnées de couche (qui sont des métadonnées de service, n’est-ce pas?). Exemple : les différents zonages d’un PLU.
Toutefois, les gestionnaires de données devraient se poser la question de la granularité des données à cataloguer et donc à diffuser : plus le grain est gros, plus c’est facile mais moins le suivi de la mise à jour est efficace. Plus le grain est fin, plus la gestion en est coûteuse mais plus elle est efficace pour les utilisateurs, y compris internes.
Tags: données, granularité, méta, qualité