Cet algorithme du MIT peut déchiffrer des langues disparues

Ce sont des chercheurs de la très prestigieuse université américaine MIT qui ont développé cet algorithme qui décrypte, en toute autonomie, des langues perdues.

Mariusz Matuszewski – Pixabay

Ce sont des chercheurs du très bien nommé « laboratoire de recherche en informatique et intelligence artificielle » du MIT (Massachusetts Institute of Technology) qui ont créé cet algorithme capable de donner une seconde vie à des langues perdues, c’est-à-dire des langues qui ne sont aujourd’hui ni parlées ni comprises. Son développement vise à pallier un phénomène gravissime, celui de la disparition d’un certain nombre de langues à l’échelle de l’humanité, car elles n’ont tout simplement plus de locuteurs. Depuis l’avènement de l’espèce humaine, la majorité des langues ont déjà disparu, et la moitié de celles qui existent actuellement devraient disparaître dans les 100 prochaines années. La conservation d’une langue concentre une foule d’enjeux, puisqu’elle a une valeur historique, culturelle, et philosophico-religieuse.

L’algorithme s’appuie sur des données et des connaissances préexistantes, notamment dans le domaine de la linguistique. Il existe en effet des manière prévisibles dont les langues utilisent des substitutions de sons. Par exemple, un « p » dans une langue parente peut se transformer en « b » dans une langue descendante. L’algorithme peut établir des schémas entre langues parentes et décrypter une langue perdue en l’associant avec une langue « cousine » connue. Avec cette même méthode, on peut établir plus facilement des familles de langues. Concrètement, cet algorithme permet, entre autres, « d’identifier toutes les références à des personnes ou à des lieux dans un document, qui peuvent ensuite être étudiées plus en détail à la lumière des preuves historiques connues », d’après les mots de la professeure Regina Barzilay, qui travaille sur le projet.

Cette technique est proche de la « reconnaissance d’entités nommées » que l’on retrouve dans la plupart des logiciels de traitement de texte. Evidemment, la tâche est ici infiniment plus complexe, puisqu’il s’agit d’extraire des données sur un texte dans une langue dont on ne sait presque rien. Pour les curieux, le compte-rendu des chercheurs est disponible ici (en anglais).