La fabrique des données brutes (notes de lecture)
[NdB : il s’agit en fait de commentaires et d’extraits, visant à vous donner envie de lire l’article lui-même]
J’avais exposé ici quelques éléments sur la relation entre INSPIRE et l’ouverture des données, notamment alimentés par l’excellente présentation d’Alain Bergue (PDF) sur la mise en place de l’ouverture des données à Nantes. Tous ceux qui ont eu à prendre des données en interne pour les publier sur l’internet savent bien ce que cela recouvre de travail, de diplomatie et de difficultés diverses.
La sociologie a ceci de passionnant qu’elle permet la transformation des vécus en savoir par une mise en perspective et un décryptage des situations. C’est tout l’intérêt de l’article de Jérôme Denis et Samuel Goëta, de Telecom ParisTech « La fabrique des données brutes – Le travail en coulisses de l’open data « .
Un point de vocabulaire : les données brutes, ici, ne sont pas des données issues de capteurs et donc dénuées de toute propriété intellectuelle, comme nous l’avions fixé à l’occasion du décret 2008-5 du 2 janvier 2008. Il s’agit d’une métaphore basée sur la proposition « les données sont le pétrole de l’économie de l’information », où les « données brutes » sont, comme le pétrole brut, la source primaire. Je trouve l’image un peu trop intellectuelle pour être bien comprise, mais bon.
Résumé
Cet article de 20 pages explique, en s’appuyant sur des travaux antérieurs sur les données de la recherche, que les données qui attendraient tranquillement d’être libérées de leurs chaînes sont un mythe. L’ouverture des données est une activité qui travaille autant les données que les organisations, notamment par la remise en cause d’équilibres et de rapports de force. En conclusion, cette analyse – que j’entends bien entendu comme s’appliquant à INSPIRE – nous interpelle sur les changements que l’ouverture des données entraîne dans nos métiers, les impacts sur les organisations de gestion des données, et in fine sur la nécessaire conduite du changement par les décideurs.
La donnée hors de son contexte de production
Les données sont produites dans un milieu spécifique, pour répondre à un besoin déterminé (même empiriquement) : « Leur intelligibilité est intrinsèquement liée aux conditions locales de leur production et de leur usage« . Ce qui illustre, en passant, la difficulté d’établir la notion de qualité externe des données, popularisée en France par Gilles Troispoux.
La mise en circulation engendre des frottements
Les auteurs l’expriment ainsi : « Les trois principales pistes d’analyse que dessinent les travaux présentés ici sont — l’épaisseur du travail de production des données, les frictions qu’implique leur circulation, et leur dimension politiques. (…) Si les données donnent lieu à des frictions, il faut reconnaître le travail supplémentaire que supposent leurs échanges et le coût de la fabrique et de l’entretien des métadonnées dédiées à la fluidification de leur circulation« . En effet, chacun sait que toute activité visant à mettre en mouvement un objet – même sociologique – demande une énergie pour vaincre l’inertie initiale. Nous en voyons aujourd’hui une illustration par la mise en ligne des métadonnées INSPIRE, qui doublent chaque année après un lent démarrage.
Trois aspects de l’ouverture des données
L’article « montre que trois aspects sont particulièrement sensibles dans le processus d’ouverture : l’identification, l’extraction et la « brutification » des données« , qui me semblent moins adaptés à notre cadre plus étroit.
Il s’étend ensuite sur la difficulté de l’identification des données, dont il dit
Si je considère avec les auteurs « l’utopie d’un catalogue exhaustif« , le travail d’exploration y est sans doute moins aléatoire et la question de la « sensibilité » des données relativement encadrée. Je suis également moins convaincu par l’argument de la difficulté de l’extraction des informations des bases de données – sauf certains systèmes propriétaires – pourtant issus de témoignages : je me demande si ce ne serait pas plutôt l’argument bien connu des usagers des services informatiques : « ah non, ça va pas être possible »?
Le reformatage des données, leur nettoyage et leur désindexicalisation
Je ne résiste pas au plaisir de citer cette phrase qui correspond le plus à notre expérience : « Les bricolages mis en œuvre pour (l’extraction), les explorations et les « moulinettes » qui permettent d’atteindre les données, donnent une idée de l’épaisseur de la nasse sociotechnique dont celles-ci doivent être littéralement extirpées. »
Le reformatage renvoie aux débats sur le « bon » format, qualificatif souvent utilisé dans un sens moral. Le nettoyage de la donnée « consiste à corriger les erreurs (…) et implique également l’harmonisation des données » mais aussi commence à la préparer au monde extérieur : « Des absences jamais remarquées deviennent des manquements, des approximations ou des doublons sans importance deviennent des erreurs ou des redondances. »
La désindexicalisation sépare la donnée de son milieu d’origine, de ses jargon et acronymes, pour sa « mise en intelligibilité ».
On y retrouve ce qui fonde INSPIRE : « Cette mise en intelligibilité passe évidemment par l’élaboration de métadonnées essentielles à tout projet de partage de données : dictionnaire, commentaires dans des documents à part, sont associées aux données brutes pour que leurs usages soient facilités. Mais elle passe aussi par la transformation des jeux de données eux-mêmes, au sein duquel des termes vont être remplacés, des intitulés simplifiés, d’autres assemblés. »
Traiter la donnée en amont ou en aval?
La mise en visibilité de ces tâches, et des coûts associés considérés comme un investissement, conduit à des changements, avec deux directions possibles : agir à la source, « en transformant la nature même des données sur les sites de leur production et dans leurs premiers usages (…) afin de minimiser le travail en aval sur les données », ou « l’assumer comme une série d’opérations à mener a posteriori sur les données métier ».
« Dans le premier cas, la multiplicité des données et la nécessité d’en faire coexister des versions différentes au sein de l’institution sont assumées. Dans le second, le caractère générique des données — leur aspect « brut » — est considéré comme un bien en soi, sur lequel il faut aligner les (métiers)« .
On peut considérer le changement massif des habitudes dans une multitude d’organisations comme une gageure. INSPIRE est fondé sur l’absence de choix entre ces deux directions. Toutefois, les enjeux d’intelligibilité sont au cœur de la directive, et la meilleure part de ses spécifications de données réside sans doute dans des dictionnaires de données apportant la compréhension de la sémantique employée.
Il reste à définir le meilleur moyen (organisation, gouvernance, outils, pourquoi pas mutualisation?) pour réduire les coûts de l’ouverture des données géographiques. La réponse n’existe pas encore, mais on y travaille.
Tags: données ouvertes, généralités, impacts, INSPIRE, Open Data