Celle du pape avait une sacrée tête - Le blog de Marie-Anne Chabin

Mot en quatre lettres.

Cette définition de mots-croisés n’est pas trop ardue pour celui qui a des lettres (par exemple trois lettres de moulin…), et plus facile encore quand on sait que les trois quarts du mot sont constitués par le suffixe hebdomadaire de ce blog (-ule).

Mais je me suis interdit d’écrire ici le mot et il ne figure pas non plus parmi les mots-clés du billet, ni dans le nom du fichier image, à dessein.

Outre le clin d’œil aux cruciverbistes et l’exercice de style, le sujet de ce billet est précisément la question de l’indexation automatique quand le mot « clé » n’est pas directement exprimé dans le texte.

L’indexation consiste à décrire un document (je pourrais dire contenu ou ressource mais je n’aime pas ces mots-là) à l’aide de mots qui synthétisent la teneur de l’écrit ou de l’image, le sujet abordé, les thèmes traités, les principales personnes et les principaux lieux concernés, autrement dit les mots-clés. Dans les fichiers des bibliothèques et plus encore sur le web, les mots-clés sont organisés, structurés, associés, de telle façon qu’un utilisateur qui pose une question reçoive en retour une liste de résultats ou de références à choisir.

L’indexation a deux finalités : d’une part, accéder à l’information ; d’autre part, contrôler l’information.

L’indexation – qui procède de l’analyse du document – est un art, autrefois enseigné dans certaines écoles. Mais depuis que le tout numérique a imposé sa loi, l’indexation est devenue une industrie robotisée. Des algorithmes toujours plus puissants ont remisé l’indexation manuelle au placard et assez souvent, hélas, l’intelligence humaine avec elle. L’indexation automatique moissonne, comptabilise, trie, relie, classe des milliards de mots ou d’images, et c’est tant mieux pour la documentation technique et scientifique. En revanche, pour la littérature, la diplomatie ou la correspondance privée, les prouesses de l’automatisation sont amusantes mais réductrices (oui, c’est très intéressant de savoir en un clic combien de fois Flaubert a utilisé le mot « amour » dans l’Éducation sentimentale, mais cela ne relève pas de la littérature et ne pourra jamais remplacer la lecture et l’analyse du roman…).

La domination algorithmique conduit l’auteur qui veut être mis en valeur à se plier aux exigences du web (titres, gras, liens…) ; elle conditionne pareillement celui qui veut échapper aux règles du numérique, pour de mauvaises ou de bonnes raisons (comme moi au début de ce billet) et l’incite à les contourner. Depuis la généralisation des automobiles il y a un bon demi-siècle, on fait attention en traversant la rue ; avec l’avènement des réseaux et de leurs escouades d’algorithmes, il faut faire aujourd’hui attention à ce qu’on diffuse et à ce qu’on ne diffuse pas sur les réseaux (web, mails, SMS, téléphone…).

Le sujet est au cœur de l’actualité sur la surveillance, officielle ou officieuse, des communications entre personnes, publiques ou privées. Il y a deux méthodes opposées de surveillance : le contrôle systématique de tout un chacun avec une indexation robotisée de type Haine SA (là, le robot pourra faire le lien phonétique si ça le chante avec l’agence qui défraie la chronique, je m’en fiche, ce n’est pas le mot que je veux cacher) ; et un contrôle plus ciblé combinant la technologie et l’analyse humaine. La recherche de vraisemblance et de cohérence des propos de telle ou telle personne est sans aucun doute plus efficace que le brassage de millions de mots par des algorithmes froids et incultes produisant un fourre-tout où on ne trouve rien.

Les bêtas des deux bords se feront piéger par les algorithmes, et tant pis pour eux. Les malins, quant à eux, y trouveront une stimulation supplémentaire pour leur activité. C’est le jeu du chat et de la souris, version big data.

Décidément, tout commence et tout finit par des animaux :

La mule du pape…