L’intelligence artificielle progresse de jour en jour. Une équipe de chercheurs développe une IA capable de craquer les textes des Archives secrètes du Vatican.
Pour découvrir et percer les mystères des Archives secrètes du Vatican, des scientifiques utilisent à la fois l’intelligence artificielle et l’OCR (technologie de reconnaissance de caractères).
Archives secrètes du Vatican des kilomètres et des milliers de documents
Les Archives secrètes du Vatican sont situées dans l’enceinte du Vatican, à côté de la bibliothèque apostolique et au nord de la chapelle Sixtine.
Elles abritent 53 kilomètres d’étagères contenant des documents datant de plus de 12 siècles.
Sur ces kilomètres d’archives, une infime partie a été scannée et mise en ligne (lire notre article).
Mais ces textes restent encore trop souvent inaccessibles, consultables et intelligibles.
Archives secrètes du Vatican, le projet In Codice Ratio
Le projet In Codice Ratio , pourrait apporter une solution formidable !
Les chercheurs utilisent une combinaison d’intelligence artificielle et de logiciels de reconnaissance optique de caractères (OCR) pour parcourir ces textes et rendre leurs transcriptions disponibles pour la toute première fois.
En cas de succès, la technologie pourrait également ouvrir un nombre incalculable d’autres documents contenus dans les archives historiques du monde entier.
The Atlantic explique : « L’OCR a été utilisé pour numériser des livres et d’autres documents imprimés pendant des années, mais il n’est pas adapté aux documents des Archives secrètes. L’OCR traditionnel décompose les mots en une série d’images-lettres en recherchant les espaces entre les lettres. Il compare ensuite chaque lettre-image à la banque de lettres dans sa mémoire. Après avoir décidé quelle lettre correspond le mieux à l’image, le logiciel traduit la lettre en code informatique (ASCII) et rend le texte consultable. »
Toutefois ceci n’est pas suffisant surtout pour les textes manuscrits.
Les quatre principaux scientifiques à l’origine du projet In Codice Ratio – Paolo Merialdo, Donatella Firmani et Elena Nieddu à l’Université Roma Tre, et Marco Maiorino – travaillent à cette nouvelle solution.
Ils expliquent : « Nous développons un système à part entière pour transcrire automatiquement le contenu des manuscrits. Nous suivons une nouvelle approche basée sur la segmentation des caractères. Notre idée est de gouverner la segmentation imprécise des caractères en considérant que les segments corrects sont ceux qui donnent lieu à une séquence de caractères qui composeront plus probablement un mot latin. Nous avons conçu une solution fondée sur des principes qui repose sur des réseaux neuronaux convolutifs et des modèles de langage statistique. »
Et selon les chercheurs, le projet Codice Ratio avance. Les résultats préliminaires à voir ici semblent encourageants.
Les Archives secrètes du Vatican pourraient peut-être dévoiler leurs secrets…
Consultez notre rubrique : Patrimoine culturel et numérique