Les billets du Patrimoine

48 billets

11 abonnés

Billet

blog-post-featured-image

Intelligence Artificielle et Patrimoine

L’IA ne se résume pas aux chatbots ou aux assistants personnels intelligents. Elle a une aire d’application bien plus vaste, sans pour autant atteindre le fantasme des IA autonomes, qui continue d’appartenir à la science-fiction.

Nous vous proposons dans cet article de découvrir quelques projets d’intelligence artificielle appliqués à l’univers du patrimoine écrit, et qui rassemblent à cette occasion bibliothécaires, informaticiens, linguistes et bien d’autres spécialistes.

Le projet NewsEye

Financé par le programme de recherche et d’innovation Horizon 2020 de l’Union européenne, le projet NewsEye rassemble six universités et deux bibliothèques européennes. Il vise à l’amélioration et la modernisation de la recherche en Sciences humaines et sociales grâce à l’utilisation de la presse ancienne numérisée. L’IA fut introduite dès les années cinquante dans le monde de la documentation par la reconnaissance optique de caractères (OCR). Cette technologie conçue aux États-Unis permet d’identifier du texte en caractères d’imprimerie. Les chercheurs de NewsEye utilisent une technologie OCR entraînée, capable de reconnaître du texte mais aussi les segments des articles de journaux, y compris lorsqu’ils sont abîmés. Outre la recherche plein texte, déjà possible avec l’OCR, l’utilisateur sera accompagné d’un véritable assistant de recherche virtuel lui permettant d’analy-ser et classer le contenu des articles afin de faire des comparaisons et des statis-tiques de tendances. Un atout non négligeable : l’outil peut gérer des recherches en différentes langues (préalablement implémentées). La plateforme Newseye est déjà disponible (il suffit de créer un compte pour y accéder).

Snoop

Snoop est un moteur d’indexation et de recherche d’images développé par l’Institut national de recherche en sciences et technologies du numérique (Inria) et l’Institut national de l’audiovisuel (Ina).

L’outil est expérimenté à la BnF et alimenté par les collections numérisées sur Gallica. Il permet de retrouver du contenu visuel à partir d’un mot-clé ou d’une image choisis par l’utilisateur. Il est possible de créer des collections personnelles et de contribuer ainsi à l’entraînement de l’intelligence artificielle en validant ou non les images suggérées.

Les agents de la BnF l’utilisent déjà pour de la médiation culturelle, comme par exemple dans ce billet consacré aux inventions nautiques.

Découvrez également GallicaSnoop !

« LITTE_BOT »

Les oeuvres de Monsieur de Molière. Tome 7 / , reveuës, corrigées et augmentées [par Vivot et C. Varlet, sieur de La Grange]... [T. I-VI.] - Les Oeuvres posthumes de Monsieur de Molière. T. VII [-VIII], imprimées pour la première fois en 1682... - vue 138 - page 128

Robot qui dialogue avec des oeuvres littéraires, des personnages ou leurs auteurs, «LITTE_BOT» est un chatbot incarnant Don Juan. Imaginé par Rocio Berenger, il a clôturé le parcours de l’exposition qui a eu lieu à la BnF (site Richelieu) en septembre 2022 à l’occasion des 400 ans de la naissance de Molière. Ce chatbot a été développé à partir de l’analyse sémantique d’un corpus de 400 pièces de théâtre du XVIIe siècle. En isolant les lignes de dialogues par thèmes, il tente de répondre avec cohérence à son interlocuteur humain. Le projet initial devait également permettre à ce Don Juan virtuel d’apprendre à inventer de nouvelles phrases, mais cette ambition n’a pas pu aboutir faute de temps. Un autre personnage sera-t-il capable de converser avec nous à sa guise ? Ce projet, dont l’aspect scientifique est indéniable, révèle une facette ludique, artistique et linguistique, de l’application des IA à notre patrimoine culturel.

Pierre Brissart, frontispice pour l’édition des
OEuvres posthumes de Monsieur de Molière, t. VII, 1682.

Ce n’est pas tous les jours qu’il est possible de converser en français du XVIIe siècle !

La base de données du Répertoire des écritures manuscrites du département de la Musique (REMDM)

La base de données du Répertoire des écritures manuscrites du département de la Musique (REMDM) et son outil de fouille automatique d’images développé par les laboratoires en informatique L3i (La Rochelle université) et IRISA (CNRS), permettront bientôt aux amateurs ou professionnels de musique de découvrir si une partition est de la main de son auteur ou d’un scribe. Encore en phase de développement pour le moment, cette base de données mobilise bibliothécaires du département de la Musique de la BnF et musicologues, afin de corriger et enrichir les notices de partitions manuscrites et d’identifier la graphie des scripteurs de musique, compositeurs ou copistes. Grâce à l’outil de fouille automatique d’images, il sera à terme possible d’identifier un scripteur et d’analyser et comparer différentes graphies.

Manuscrit autographe de Joseph-Hector Fiocco,
compositeur (XVIIIe s.)

Conclusion

L’utilisation de l’IA en patrimoine ne cesse de se développer depuis les deux dernières décennies. Grâce à elle, des données jusqu’alors difficilement exploitables se retrouvent entre les mains du grand public.
Un amateur de généalogie comme un chercheur en sciences humaines et sociales accède maintenant plus facilement au contenu des documents, de plus en plus susceptibles de lui fournir des données de qualité grâce à l’IA.
En parallèle, lesdits documents sont moins manipulés et leur conservation est améliorée sans avoir à en limiter la consultation. Le lecteur comme le document y sont gagnants.

Certains pourraient se demander si les bibliothécaires ne seraient pas vite remplacés par les IA. La réponse, à laquelle adhèrent de nombreux professionnels du secteur, est négative. Les applications présentées illustrent bien que l’action humaine est nécessaire pour développer et alimenter les connaissances d’une IA. Son cadre d’action dépasse l’humain lorsqu’elle compile plusieurs tâches en quelques millisecondes, mais il est restreint par les données de fonctionnement dont dispose l’IA.

Pour les bibliothécaires l’arrivée de l’IA n’engendre qu’une redéfinition des pratiques, tout comme l’informatique et Internet ont modifié les systèmes de gestion.

Ecrit par la BU Vauban

Description du blog

Ce blog ne contient pas de description et l'auteur n'a rien écrit a son sujet.