Première partie. Le règne de la donnée

Les données. Nos données. Les données de l’entreprise. Les données ouvertes. Les données personnelles. Web de données… Les données sont partout. C’est le règne de « la donnée ».

Le mot données figure dans un nombre croissant de titres de presse et d’articles de revues ou de blogs.

Poème de données

Voici une sélection de titres d’articles des dernières années abordant les nombreuses facettes de la donnée (liste chronologique et un peu longue mais la matière est riche et la lecture passionnante; à noter aussi que l’anglicisme « data » a été exclu de la sélection, tant pis pour les Franglish!):

Je suis mort. Comment transmettre mes données en héritage ? (février 2014)

Le piratage de Yahoo! est le plus important vol de données de l’histoire (décembre 2016)

Aux Etats-Unis, un refuge pour les données en danger (février 2017)

La Norvège crée un coffre qui protègera les données en cas d’apocalypse (avril 2017)

Une copie d’examen manuscrite est-elle un ensemble de données à caractère personnel ? (septembre 2017)

Les données des entreprises françaises éparpillées aux 4 vents (octobre 2017)

La Société Générale dévoile son plan de bataille sur la donnée (datalake) (novembre 2017)

Qui est le propriétaire des données de ma santé ? (février 2018)

La donnée est-elle le nouveau pétrole ou un nouvel environnement ? (mai 2018)

1 entreprise sur 2 ne sait pas où sont stockées ses données sensibles ! (juillet 2018)

La protection des données, un enjeu essentiel pour l’organisation interne de l’entreprise (juillet 2018)

La classification des connaissances et le web de données : une opportunité pour la recherche (octobre 2018)

Supprimer les données reste un enjeu pour l’entreprise (octobre 2018)

Danone : « dans l’usage de la donnée, il faut passer d’abord par la case business » (novembre 2018)

Et si vous archiviez vos données dans le cloud (MagIT) (novembre 2018)

La Transformation Digitale Est Celle De La Donnée Partagée (novembre 2018)

Big Data : le volume de données mondial multiplié par 5 d’ici 2025 (décembre 2018)

Fragmentation des données secondaires : un problème historique, de nouvelles solutions (février 2019)

« Gardez la maîtrise de vos données ! », lance Thierry Breton, PDG d’Atos (mars 2019)

Gouvernance des données et algorithmes publics : quelle stratégie pour l’État ? (mai 2019)

La qualité de la donnée au cœur de la modernisation des infrastructures (mai 2019)

Paris se dote de sa propre infrastructure pour héberger les données de ses administrés (mai 2019)

La donnée “non-personnelle” (anonyme) existe-t-elle ? (août 2019)

Peut-on payer avec ses données personnelles ? (septembre 2019)

Intelligence artificielle et bases de données : que dit le droit ? (octobre 2019)

La lutte contre le terrorisme ne justifie pas la conservation généralisée des données personnelles (janvier 2020)

Le gouvernement américain investit dans le stockage de données dans l’ADN (mars 2020)

Données non-effacées des terminaux : une faille de sécurité par négligence (mars 2020)

Data analysis, la science des données est devenue un art (mai 2020)

La Sécurité intérieure américaine va extraire encore plus de données des appareils aux frontières (août 2020)

Peut-on encore héberger légalement ses données dans le cloud ? (novembre 2020)

Cyberattaques : voici les différentes méthodes criminelles pour voler des données (mars 2021)

Savoir-faire en matière de destruction des données (avril 2021)

Peu d’entreprises parviennent à exploiter correctement les données en améliorant leur qualité et leur traitement (avril 2021)

Notre clinique des données intéresse beaucoup les autres hôpitaux français (mai 2021)

Comment protéger ses données, si on ne sait même pas où elles sont! La cartographie des données (juillet 2021)

Une brève histoire de la donnée publique (août 2021)

Afghanistan : quand la protection des données biométriques devient une question de vie ou de mort (septembre 2021)

Vos données ne valent pas grand chose mais le problème n’est pas là ! (septembre 2021)

Pourquoi et comment visualiser la donnée pour augmenter la performance de votre entreprise (octobre 2021)

etc.

Mais qu’est-ce qu’une donnée?

Cette floraison – ou intrusion des données sur le devant de la scène (selon le point de vue où on se place) – suscite quelques questions:

  1. à quoi renvoie exactement le mot « données » (au pluriel ou au singulier)?
  2. qu’est-ce qui n’est pas « donnée »?
  3. les données sont-elles une création récente, originale, inédite ou sont-elles une métamorphose d’une réalité préexistante?
  4. quel est le lien entre les données et les documents dont on parlait naguère: les documents personnels, les documents de l’entreprise, l’accès aux documents, le classement des documents, etc.?
  5. les données ont-elles évincé ou vont-elles évincer pour de bon les documents de la scène informationnelle, les envoyant ad patres ou ad matres (i.e. aux archives), ou bien assiste-t-on à une simple éclipse temporaire des documents sous leurs atours des dernières décennies en attendant leur résurgence, drapés dans de nouveaux habits numériques?

L’étude de la première question (qu’est-ce que la donnée? Que sont les données ?) conduit assez vite au constat d’un décalage flagrant entre les définitions existantes, généralistes ou techniques, et ce que l’on peut imaginer en parcourant la liste de titres ci-dessus, qu’on la lise comme un digest de la problématique des données au 21e siècle ou comme un poème des temps nouveaux.

Les dictionnaires de langue, tout en restant précieux pour l’histoire du mot, sont manifestement dépassés sur l’usage actuel des données (les dictionnaires suivent toujours l’usage mais sur ce coup-là, ils semblent prendre du retard).

Le dictionnaire de l’Académie française indique données comme un terme de mathématique à partir du 18e siècle (les données d’un problème à résoudre).

La définition qui en découle, la plus courante aujourd’hui, renvoie à la notion de raisonnement: « Ce qui est connu et admis, et qui sert de base, à un raisonnement, à un examen ou à une recherche » (CNRTL) et on trouve la même idée chez Larousse, Wikipédia ou Robert.

Diverses publications scientifiques et techniques proposent des définitions, comme le site www.techno-science.net qui dit: « Dans les technologies de l’information (TI), une donnée est une description élémentaire, souvent codée, d’une chose, d’une transaction d’affaire, d’un événement, etc. Les données peuvent être conservées et classées sous différentes formes : papier, numérique, alphabétique, images, sons, etc. ».

On est passé, et tout le monde l’a bien constaté, des mathématiques à l’informatique.

Les glossaires qui proposent une définition de données (ou recopient celles des dictionnaires ou celles d’autres glossaires) sont assez nombreux et il n’y a pas de valeur ajoutée à en faire la liste. Pour ma part, je m’en tiens à la définition originale que donne la norme OAIS publiée en 2001 (devenue ISO14721), relative à la pérennisation des données scientifiques (Open Archival Information System). La norme OAIS dit ceci: « Données (Data) : une représentation formalisée de l’information, adaptée à la communication, l’interprétation ou le traitement. Exemple : une séquence de bits, un tableau de nombres, les caractères d’une page, un enregistrement de paroles ou un échantillon de roche lunaire ». Définition d’autant plus intéressante qu’elle fait écho à la définition du mot information que l’on associe trop souvent à données sans savoir bien expliquer la différence entre les deux notions. OAIS précise donc qu’une information est « toute connaissance pouvant être échangée. Lors de l’échange, elle est représentée par des données. Exemple : une chaîne de bits (les données) accompagnée d’une description permettant d’interpréter cette chaîne de bits comme des nombres représentant des mesures de températures en degrés Celsius (Information de représentation) ».

Cette définition de données par l’OAIS a inspiré celle que j’ai formulée dans mon Nouveau glossaire de l’archivage (2010): « Donnée: Mot, nombre, signal, chaîne de caractères, séquence de bits, morceau de matière ou tout autre élément brut enregistré dans un système d’information où il pourra être corrélé à d’autres objets et interprété pour constituer une information », avec le commentaire suivant: Une donnée n’est qu’une composante d’une information ou d’un document. Archiver des données élémentaires n’a donc pas de sens, à l’inverse de l’opération de sauvegarde qui a pour but de restituer les éléments du système en cas de panne ». Mais je reviendrai ultérieurement sur la notion de document.

Il est manifeste que l’on est passé depuis le début du 21e siècle du domaine de l’informatique à ceux de l’économie, de la vie quotidienne, de la gouvernance des populations. C’est vaste. De sorte que les « autorités compétentes » (hum…) seraient bien inspirées de s’emparer du sujet pour proposer une définition qui réponde, disons à au moins 90% des sens réels des mots données (au pluriel) ou  donnée (au singulier) dans les publications d’aujourd’hui. Ceci éviterait peut-être aux uns et aux autres de publier des définitions « sottes et grenues » telle que celle qu’on peut lire à la fin du dernier ouvrage d’Aurélie Jean, Les algorithmes font-ils la loi ? (éditions de l’Observatoire) dont le lexique final propose:  » Data : c’est une information sous forme de données qui décrivent un individu, une personne morale, un pays, une société, un objet ou encore un scénario », énoncé aussi choquant au plan linguistique que technique (à croire que l’autrice n’a pas relu les épreuves…).

La plupart des définitions glissent malheureusement sur la différence entre singulier et pluriel, entre donnée et données, en prenant l’anglais data pour un féminin singulier (syndrome de rosa, rosa, rosam…) alors que c’est, comme en latin, un neutre pluriel (pour ne pas évoquer l’affreux barbarisme « datas » – avec un « esse » pour pendre les écorcheurs d’orthographe?). Cela dit, au-delà de la donnée élémentaire (data element, en anglais, est singulier de data qui, je me répète, est un pluriel), il faut reconnaître l’usage croissante de donnée en tant que singulier collectif comme on dit « la voiture électrique », « le vaccin », « la bande dessinée ».

Pour poursuivre, je vais comparer l’utilisation du mot données à l’utilisation (ou la non-utilisation) du mot documents.

Suite : Les données éclipsent les documents

Suite et fin

4 commentaires

  1. Bonjour Marie-Anne, je lis avec plaisir votre article (1/3 le règne de la donnée) et le fond documentaire associé que je trouve très bien.
    En tant que Délégué Général d’OpenDataFrance, j’aimerais entrer en contact avec vous. Notre association, membre du GFII, réunit les collectivités autour des enjeux de la donnée publique et ouverte.
    Nous menons des actions de sensibilisation à la donnée, tout à fait en phase avec votre article (et les prochains).
    Nous lançons par exemple un cycle de webinaires pour l’acculturation à la donnée, « le Mois de la Data », à partir du 1 décembre.
    Voici le lien : https://www.opendatafrance.net/2021/11/12/le-mois-de-la-data/

    Les sessions (webinaires) sont pilotées par une animatrice, le modèle est de faire dialoguer deux personnes, qui abordent le sujet avec des angles un peu différents (mais pas opposés :-). Le sujet du premier module, le 1 décembre, est exactement celui de votre post ! Je suis pour l’instant le seul intervenant. Ca serait super si vous pouviez ‘y participer, virtuellement, avec moi. On peut en parler ?

    • Bonjour à vous et merci de votre intérêt pour mon texte (sans avoir lu les parties 2 et 3 à venir les semaines prochaines ). Je me réjouis d’avance de nos prochains échanges car justement les données ouvertes sur une des questions qui occupent ma réflexion. À très vite donc.

Commentaires fermés