L’Open data, une tendance tendance
L’Open data est une démarche qui a le vent en poupe. Un mouvement à la mode. Une tendance très tendance.
Et tant mieux.
L’expression française correspondante est « données ouvertes » mais force est de constater qu’elle est moins utilisée car sans doute moins explicite, en tout cas plus floue.
L’anglais « data » (qui est autant du latin que de l’anglais) fait ressortir plus rapidement que l’on parle de données numériques, dans la lignée du « big data », « smart data », « data mining »… dont les équivalents français parfois tardifs et discutables (données massives ou mégadonnées, données intelligentes, fouille de données) n’ont pas réussi à s’imposer. Par ailleurs, l’accent aigu de données disparait dans l’écriture désaccentuée des URL, ce qui affaiblit la visibilité du mot. Sans parler de l’utilisation marketing de l’expression anglaise, l’État étant le premier à « montrer l’exemple » avec le site https://www.data.gouv.fr/.
La traduction de « open » par « ouvertes » n’est pas forcément efficace car l’image que l’on associe spontanément à cet adjectif est celui d’une porte ouverte ou d’une personne à l’écoute, image qui ne s’accorde pas de manière évidente à la notion de données numériques. La majorité de la population connaît l’open d’Australie et les « open bars » mais là encore, le lien avec les données numériques ne va pas de soi. Le mot « public » eût peut-être été plus clair, malgré sa propre polysémie. On aurait pu parler de « données publiques », au sens ancien du terme que l’on retrouve dans le mot « Re-publique », à savoir « qui est sous contrôle de l’État, qui appartient à l’État, qui dépend de l’État, qui est géré par l’État » avant que le substantif « le public », c’est-à-dire les gens qui assistent ou sont concernés par quelque chose (le public d’un spectacle, le grand public…), ne s’impose comme sens le plus courant de ce terme.
Résultats des courses: on devrait dire de « données ouvertes » et on dit « open data » (certains écrivent même Open datas » !) (1).
Las, peu importe l’anglicisme, pas dramatique en soi. Ce qui est plus gênant, plus sournois, est que son adoption laisse entendre que cette pratique, une de plus, aurait été inventée aux États-Unis: « Le terme d’open data est apparu pour la première fois en 1995, dans un document d’une agence scientifique américaine »; ou encore « Le terme est apparu pour la première fois dans les années 1970 dans les accords qu’a signés la NASA avec des pays partenaires en vue du partage de données satellitaires ».
Si l’on parle d’un échange international de données scientifiques via le réseau mondial, oui, sans doute, la chose est récente. Mais la politique de mise à disposition des citoyens des données de l’État ou qui concernent la collectivité nationale relève d’une tradition plus ancienne. L’article « Données ouvertes » de Wikipédia mentionne, certes pour le périmètre français, deux dates et deux textes fondateurs de la politique d’ouverture des données / d’accès aux informations publiques :
- 1789: l’article 15 de la Déclaration des Droits de l’Homme et du Citoyen de 1789 dispose que « la société a le droit de demander des comptes à tout agent public de son administration ». Cet article constitue le fondement juridique du droit d’accès aux informations publiques.
- 1978 (les mêmes chiffres mais pas dans le même ordre): plus d’une décennie, c’est vrai, après le Freedom of Information Act, la loi du 17 juillet 1978 relative à l’accès aux documents administratifs reconnaît (timidement mais après deux siècles de silence législatif sur le sujet) le droit d’obtenir communication des documents détenus par une administration, quels que soient leur forme ou leur support.
Définitions
Il existe plusieurs définitions, sous le vocable « open data » ou sous celui de « données ouvertes », lesquelles définitions laissent voir quelques nuances.
Quelques définitions insistent sur les données elles-mêmes.
« Les données ouvertes sont des données numériques dont l’accès et l’usage sont laissés libres aux usagers, qui peuvent être d’origine privée mais surtout publique, produites notamment par une collectivité ou un établissement public » (définition Wikipédia)
« Données brutes non nominatives et libres de droits, produites ou recueillies par un organisme public ou privé, qui sont accessibles aux citoyens par Internet » (Office québécois de la langue française)
« Les données ouvertes (de l’administration) sont les informations que les organismes publics recueillent, produisent ou achètent (aussi appelées «informations du secteur public») et qui sont mises à disposition gratuitement en vue de les réutiliser à d’autres fins. La licence précise les conditions d’utilisation » (Portail officiel des données européennes)
« Les Open Data, ou données ouvertes, sont des données auxquelles l’accès est totalement public et libre de droit, au même titre que l’exploitation et la réutilisation. Ces données offrent de nombreuses opportunités pour étendre le savoir humain et créer de nouveaux produits et services de qualité » (site LeBigData)
« Les open data sont des données ouvertes qui sont accessible à tous. Elles sont universelles, publiques et réutilisables. Elles permettent aux citoyens d’accéder à plus de transparence sur des sujets variés » (lexique Infonet)
D’autres définitions mettent en avant la démarche politique d’ouverture de ces données.
« L’open data est un mouvement visant à rendre accessibles à tous, via Internet et sans aucune contrepartie, des informations d’intérêt public et général utiles à la communauté » écrit le Journal du net.
L’Open data est un « processus d’ouverture des données publiques ou privées pour les rendre disponibles à l’ensemble de la population sans restriction juridique, technique ou financière » affirme le site Pour l’Éco.
Le site de la CNIL (Commission nationale Informatique et Libertés) définit l’open data comme « un mouvement d’ouverture en ligne des informations détenues par leurs administrations publiques » avec trois objectifs: renforcer la transparence de l’action publique, communiquer au public une image détaillée du territoire, développer le marché de l’information publique. Et la CNIL de préciser: « Ce ne sont donc pas les données en tant que telles qui sont au centre de l’open data mais leur « mise à disposition de tout internaute des informations du secteur public, sous leur forme la moins interprétée (donnée brute) et la plus facilement utilisable (donnée directement exploitable par une machine) ».
Le Vocabulaire de l’informatique et du droit sur Legifrance souligne cette double acception d’open data en distinguant deux traductions françaises et deux définitions (Données ouvertes et Ouverture des données).
Eh oui, open est à la fois un adjectif et un verbe.
Quelle est la nature des données concernées?
On distingue deux grands ensembles de données dans ce qui est mis ainsi à disposition du public, avec une certaine porosité entre les deux, selon les modalités et la finalité de la collecte.
D’un côté, les données relatives à l’action publique de l’administration qui implique, comme acteurs, bénéficiaires ou personnes concernées, les citoyens et plus généralement la population qui vit sur le territoire (ce qui ne se réduit pas, évidemment, à des données à caractère personnel). Ainsi le site gouvernemental https://www.data.gouv.fr/fr/, intitulé « Plateforme ouverte des données publiques françaises » met en avant trois thématiques : les élections, l’emploi, le logement et l’urbanisme. Le site d’Etalab apporte une précision intéressante sur la relation entre documents et données (cf ma série de billets sur le sujet) dans sa définition de « l’open data public »: « Dans le cadre de ses missions de service public, l’administration produit et reçoit des documents administratifs. Ces documents administratifs peuvent contenir des informations publiques, qui peuvent elles-mêmes être représentées sous forme de données publiques ».
De l’autre côté, les données issues de l’observation de la nature et des phénomènes relatifs à l’environnement par de grands établissements publics ou des entreprises privées exerçant de droit ou de fait une activité au service de la collectivité nationale ou internationale, comme les données géographiques, les données énergétiques ou les données satellitaires citées plus haut.
Les annuaires administratifs et statistiques de naguère
Déformation professionnelle, peut-être, quand je suis confrontée à quelque chose supposé être nouveau, je cherche toujours à rattacher cette nouveauté, dépouillée de sa forme matérielle liée aux technologies du temps, à une pratique plus ancienne, afin de mesurer plus aisément la part d’innovation, la part de continuité, la part de la contingence.
Pour ceux qui connaissent l’histoire administrative de la France depuis la Révolution française, cette pratique de publicité des informations publiques (même si on ne les qualifie pas de « données ouvertes ») renvoie l’image des annuaires administratifs et statistiques de la France théoriquement publiés, chaque année, à partir du début du 19e siècle et jusqu’à la Seconde guerre mondiale, dans tous les départements « sous les auspices de M. le préfet et du Conseil général » et disponibles dans chaque mairie. Théoriquement car, contrairement à l’idée reçue d’une uniformité administrative sous les préfets de Napoléon 1er comme sous la IIIe République, et malgré des instructions ministérielles de cadrage, notamment la circulaire du 26 septembre 1844 (2), ces annuaires n’ont pas toujours été produits et présentent des choix éditoriaux qui varient sensiblement d’un département à l’autre, choix qui apparaissent dans les titres, surtout à partir de la seconde moitié du 19e siècle: Annuaire administratif, statistique et historique de l’Eure (1862), Annuaire statistique, historique et administratif du Morbihan (1857), Annuaire historique, statistique, administratif, militaire de la Moselle (1845), Annuaire Administratif, Statistique, Historique, Judiciaire, Agricole et Commercial de la Mayenne (1859), etc. Les différences tiennent aussi aux initiatives des rédacteurs, fonctionnaires ou personnes privées, ainsi qu’aux éditeurs locaux de cette publication territoriale.
Certes, ces ouvrages imprimés, accessibles via un libraire, n’étaient pas gratuits mais cet aspect ne semble pas avoir été jamais contesté (à vérifier). Et le citoyen pouvait aussi le consulter en mairie ou en bibliothèque.
Il suffit de feuilleter ces annuaires pour comprendre combien ces « données » administratives, au-delà de la forme et du support papier, font écho aux bases de données accessibles aujourd’hui dans le cadre de l’open data : données statistiques sur la population, données financières, données hospitalières, données territoriales, etc. comme l’illustrent les images ci-dessous.
Mortalité infantile dans le Pas-de-Calais entre 1806 et 1808 (Annuaire de 1810)
Dépenses départementales présentées lors de la séance du conseil général des Ardennes du 2 septembre 1849 (Annuaire de 1850)
Mouvement des malades civils à l’hôtel-Dieu de Troyes (1829-1834) – Annuaire départemental de l’Aube 1835
Nomenclature des communes des Ardennes avec, dans la dernière colonne, la contenance du territoire communal (Annuaire de 1850)
Longueur des routes départementales de l’Ain (Annuaire 1876)
Production de vin en Saône-et-Loire de 1896 à 1921 (Annuaire 1922)
Ces annuaires ont été très utilisés tout au long du 19e siècle et pendant la première moitié du 20e siècle avant d’être peu à peu délaissés. Les services d’archives départementaux et municipaux, ainsi que la Bibliothèque nationale, en conservent en général une ou plusieurs collections. Certaines ont été numérisées, d’autres pas (encore), avec des niveaux de qualité variable comme le prouvent les images ci-dessus pour l’Ain, les Ardennes, l’Aube, le Pas-de-Calais et la Saône-et-Loire. Ces collections présentent malheureusement des lacunes. Consolation, on en trouve sur les sites de livres anciens, par exemple l’annuaire du département de l’Eure pour 1862 à 8,5 € en PDF, moins cher qu’un paquet de cigarettes !
Quelle évolution en deux siècles?
Je reviens à la question exprimée dans le titre de ce billet: qu’est-ce qui a changé dans l’accès aux données publiques depuis deux siècles?
La comparaison de ces collections d’annuaires (représentatifs d’un panel de publications administratives plus varié sur la période) avec les jeux de données dénommés aujourd’hui données ouvertes met d’abord en avant le rôle majeur des technologies dans la production des données et dans l’accès à l’information. Les progrès technologiques ont tout d’abord permis de décrire de plus en plus de réalités, non seulement les décisions des organisations ou les faits observables à l’œil humain mais aussi les phénomènes environnementaux ou scientifiques accessibles uniquement par le truchement d’outils de plus en plus sophistiqués et précis. Il en ressort une explosion de données, souvent très fines, autorisant des analyses et des exploitations toujours plus poussées. Par ailleurs, les capacités de traitement et de visualisation dont on dispose aujourd’hui n’ont plus rien à voir avec les pages imprimées d’antan; les austères tableaux de mortalité du 19e siècle n’ont plus grand-chose à voir avec les infographies et animations qui présentent aujourd’hui les mêmes types de données. Et surtout, la création d’un réseau planétaire a permis d’accéder à ces gisements d’information de n’importe où dans le monde, sans se déplacer, par le biais d’un simple ordinateur.
Voilà pour les plus. Mais il y a aussi les moins.
En effet, il est étonnant que, malgré cette progression technologique, la construction de grandes bases de données publiques se révèle finalement tardive et parfois poussive. On note ainsi, comme pondération des progrès technologiques, un aspect négatif de cette évolution biséculaire: c’est le manque de recul dans la production parfois tâtonnante ou anarchique des collections d’aujourd’hui. Comme s’il avait fallu tout réinventer depuis quelques décennies: les principes de l’accès à l’information, les méthodes de description et de présentation des données, le droit des populations à l’information publique, les pratiques de partage et d’exploitation des biens communs. Autant réinventer la poudre peut avoir du bon au plan individuel, autant une société évoluée devrait s’appuyer sur son expérience passée et ses connaissances collectives pour faire à la fois plus vite et mieux. On peut voir dans cette course aux données ouvertes depuis une dizaine d’années une illustration du règne de la donnée ignorante du passé, de l’histoire, des archives. Le manque de recul global est sans doute également imputable à la multiplicité des acteurs et des initiatives, mais ce qui pourrait être un ferment de qualité s’avère pénible quand ce sont le manque de recul et le défaut de culture qui sont démultipliés, plutôt que l’imagination et la sagacité.
À la décharge des oublieux du passé, il faut bien reconnaître l’impact d’un demi-siècle d’oubli des annuaires administratifs, passés de mode et délaissés par les historiens, même si le service de la Documentation française a continué à proposer des ouvrages statistiques aux lecteurs intéressés.
Pourquoi de si bonnes pratiques administratives ont été peu à peu abandonnées au lendemain de la Seconde guerre mondiale ? Faut-il incriminer la charge de travail administrative, la perte d’un savoir-faire, la démission des acteurs compétents, le goût du secret des responsables politiques et administratifs, le manque de considération pour le public ou encore le manque d’intérêt des citoyens pour ces informations publiques depuis un demi-siècle ?
En tout cas, il est amusant de cartographier les données mises actuellement à disposition du public. Sans vouloir faire du mauvais esprit, j’ai retenu de ma promenade sur la toile que l’internaute pouvait accéder d’un clic à la liste des objets trouvés dans les trains français depuis 2013 (ainsi que la liste des déclarations d’objets perdus) mais je n’ai pas trouvé la liste des contrats signés par le gouvernement avec les laboratoires pharmaceutiques. Bizarre.
Il faut dire que l’article 15 de la déclaration des droits de l’homme et du citoyen en faveur de la transparence administrative était lui-même relativement tombé dans l’oubli pendant les Trente Glorieuses, y compris chez les chercheurs et les archivistes, avant de connaître un regain d’intérêt à la fin du 20e siècle. Peut-être faut-il, dirait le philosophe, que tout meurt pour que tout renaisse…
Et les archives dans tout ça?
Eh bien, peu de choses à dire.
La grande majorité des données ouvertes sont des archives publiques au sens le plus strict et le plus traditionnel, en droit et en archivistique.
C’est évident.
Mais cela ne semble pas évident pour tout le monde.
Même si la plupart des archivistes avec qui j’ai évoqué le sujet en conviennent sans hésiter, les responsables des bases de données de « l’open data » en France ne font apparemment pas le lien entre archives publiques et données ouvertes. J’en veux pour preuve ce support de formation élaboré par Datactivist à destination d’archivistes en 2022 qui n’évoque absolument pas les origines de la notion de publicité et de publication des documents administratifs publics au cours des derniers siècles ni même des dernières décennies.
Il y a là une perte de savoir à tous les niveaux. Et une perte de pouvoir aussi. À tous les niveaux également.
Curieux.
Notes
(1): Par exemple dans cette URL: https://adequation.fr/actualites-et-ressources/open-datas/. Cela dit, on s’habitue à tout à force de l’entendre et, à cette heure, je me dis qu’un jour, à force de voir un « s » ajouté à « data » par certains auteurs peu soucieux du génie des langues (datas, et pourquoi pas datasses tant qu’on y est ?), je finirai par m’y habituer. Il y a bien d’autres exemples dans la langue française d’orthographes plus fantaisistes que cela (le homard; la châsse, la glande lacrymale, etc.) que les défenseurs extrêmes de la langue française veulent absolument préserver. Bref.
(2) Voir la thèse de doctorat de Julie Lauvernier, « Classer et inventorier au XIXe siècle Administration des fonds et écriture de l’histoire locale dijonnaise par l’archiviste Joseph-François Garnier (1815-1903) », 2012, pp 144-147
Bonjour,
je permets de revenir sur la fin du billet où vous évoquez le support de formation que nous avons conçu chez Datactivist pour la formation « comprendre et mettre en œuvre l’open data » de l’Association des archivistes français. Vous reprochez que nous n’évoquions « absolument pas les origines de la notion de publicité et de publication des documents administratifs publics au cours des derniers siècles ni même des dernières décennies. »
L’objet de la formation est de comprendre les grands principes de l’ouverture des données et de disposer des informations essentielles pour initier une démarche d’open data dans son institution. Datactivist ne prétend pas former les archivistes à l’archivistique ou à l’histoire administrative française mais s’attache à montrer comment l’open data prolonge et renouvelle la tradition française en matière de transparence (cf https://datactivist.coop/fr/a-propos/).
Nous sommes convaincus que les services d’archives ont un rôle important à jouer dans les projets d’ouverture des données et n’y sont pas assez associés selon nous. J’anime cette formation avec Anne-Laure Donzel qui a exercé le métier d’archiviste pendant 15 ans et continue de contribuer aux travaux de l’AAF. Vous pouvez lire son billet de blog où elle évoque 6 points communs entre archives et open data : https://medium.com/datactivist/archivistes-professionnels-de-lopen-data-nous-n-avons-pas-le-m%C3%AAme-maillot-mais-nous-avons-la-67fcbced1238
Par ailleurs, votre commentaire est d’autant plus étonnant que nous évoquons en détail le droit d’accès aux documents administratifs dans cette formation comme vous pouvez le voir dans notre support mis à disposition de tous : https://datactivist.coop/aaf/#11
et là : https://datactivist.coop/aaf/#36 jusqu’à #41
Cordialement
Samuel Goëta
Merci de votre commentaire très clair.
Mon propos un tantinet partial et provocateur (toujours, sur mon blog!) mérite effectivement d’être reformulé ou du moins explicité.
Le point qui a suscité mon billet est que, entre la tradition des annuaires départementaux (qui a duré près d’un siècle et demi) et la mise en ligne des grandes bases de données ouvertes, il y a une période de plusieurs décennies un peu floue qui interroge (en tout cas, elle m’interroge).
J’aborde donc la question de l’absence de lien de continuité (voire de revendication d’un rattachement à une réalité plus ancienne), entre les annuaires départementaux et les grandes collections de données numériques, alors que les thématiques sont en bonne partie les mêmes. Il y a là un trou qui voudrait être comblé. Je ne parle pas seulement de la discrétion des documents sur le sujet mais aussi de l’absence de publicité officielle.
Le discours actuel sur la transparence administrative et sa référence à l’article 15 de la Déclaration des droits de l’homme et du citoyen est somme toute assez récent. On n’en parlait pratiquement pas dans la seconde moitié du 20e siècle, sinon à la toute fin du siècle. C’est donc davantage une réinvention après une période de dormance laquelle a créé une rupture dans la production documentaire, ou peut-être une dispersion, une désagrégation, ce serait à investiguer.
Ce lien, qui existe ou qui n’existe pas, avec des publications antérieures est précisément ce qui m’a intéressée. Il n’est pas incongru de poser la question . Je suis trop souvent frappée par les ruptures de continuité dans les fonds d’archives, y compris pour les typologies les plus évidentes comme ces publications statistiques (il y aurait tant d’exemples à citer, c’est un sujet en soi).
Par ailleurs, j’avoue ne pas avoir creusé les aspects techniques de traitement des données, même si les évolutions de support et de forme de l’information sont souvent au cœur de mes préoccupations. Mais pour étudier cette évolution, il faudrait d’abord avoir une série complète sur toute la période: quels documents sollicite-t-on pour combler le trou identifié?
Je n’ai pas non plus abordé la question de l’exploitation rétrospective des données qui se trouvent dans les collections des archives publiques pour nourrir les bases de données ouvertes; c’est encore un autre sujet, qui, me semble-t-il, n’était pas formulé il y a deux siècles, ou alors d’une toute autre façon.
Mon billet était donc centré sur l’absence apparente de documentation de cette période entre les deux ensembles chronologiques que sont les annuaires départementaux de 1800 à 1940 et les bases de données de l’Open data depuis 2010, ou encore l’absence de « généalogie » entre les deux ensembles. Il y a encore beaucoup de sujets à développer. Au plaisir d’en discuter.
Bonne continuation pour vos travaux.
MAC