Science ouverte pour langues en danger
Publié le - par Barbara Vignaux
Vous voulez entendre un conte dans une langue rare, le nashta, originaire de Grèce ? savoir comment travaille un forgeron guinéen s’exprimant en kakabé ? écouter une chanson dans une langue caraïbe appelée wayana ? découvrir une recette de cuisine népalaise en koyi rai ? Rendez-vous sur le site pangloss.cnrs.fr !
Cette « bibliothèque sonore » en ligne abrite plus de 3600 enregistrements audio et vidéo dans 170 langues de tous les continents, soit actuellement 780 heures d’écoute au total. Il s’agit de langues rares, menacées ou même disparues, car l’immense majorité des langues en danger est dépourvue de tradition écrite et meurt donc avec les derniers locuteurs.
Contre une « seconde mort »
Jusque-là conservée sous forme de bandes magnétiques, une partie des enregistrements présentés sur le site Pangloss a ainsi été sauvée d’une « seconde mort » – l’expression utilisée par les linguistes pour désigner la perte des supports audio – par sa numérisation et sa mise en ligne. Parmi ces perles rares, l’histoire intitulée « La chair de poisson rend intelligent », narrée en oubykh, une langue caucasienne autrefois parlée en Turquie et en Géorgie, et qui compte 80 consonnes ! Racontée par Tevfik Esenç, son dernier locuteur, elle a été enregistrée par le linguiste et anthropologue Georges Dumézil en 1968, dont les notes manuscrites sont également consultables sur le site.
Rassemblé depuis 1995 par le Lacito (Laboratoire Langues et civilisations à tradition orale, CNRS/Université Sorbonne Nouvelle/Inalco), ce vaste patrimoine est le fruit d’une collaboration avec des chercheurs et ingénieurs américains, chinois, hollandais, singapouriens et australiens : « par cercles d’affinités » croissants, explique un des artisans de Pangloss, le linguiste Alexis Michaud.
Il réunit des langues aux statuts très divers, certaines d’entre elles bénéficiant d’une riche documentation, lorsque les linguistes ont pu, sur le terrain, enregistrer, sous forme audio et/ou vidéo, assez de données naturelles (contes, discussions, recettes, propos d’artisans…) pour élaborer un dictionnaire et une grammaire. Près de la moitié des enregistrements sont ainsi transcrits et annotés, avec des éléments de contexte ou des traductions vers d’autres langues. La vaste collection réunie par Michel Ferlus, un linguiste octogénaire spécialisé dans les langues d’Asie du Sud-Est, en est un bon exemple. Pour d’autres idiomes, en revanche, ne sont disponibles que quelques enregistrements audio, qui attendent encore d’être transcrits phonétiquement, traduits, analysés.
Interface amicale
Nouveauté intéressante, le site Pangloss est désormais accessible au grand public grâce à son interface toute neuve et très intuitive. Et pas seulement en français : il est entièrement bilingue français-anglais et comprend des traductions partielles dans d’autres langues, dont le chinois pour les notices de certaines langues asiatiques, à l’instar du na de Yongning.
Des filtres permettent de naviguer aisément par langue, locuteur, chercheur, durée de l’enregistrement et type de support, audio ou vidéo. Le site permet aussi de suivre la transcription textuelle en écoutant un extrait, ainsi que sa traduction, y compris mot à mot. N’importe qui peut donc librement parcourir cette bibliothèque linguistique. Mieux : l’essentiel des contenus étant sous licence Creative Commons, et téléchargeables, ils peuvent nourrir des projets muséographiques ou musicaux.
Pour passer de la version grand public au site « pro », c’est simple : il suffit d’activer l’onglet en haut à droite du site. Des outils supplémentaires, ou suggestions d’études, sont alors proposés aux chercheurs : comparaison de trames narratives entre les diverses versions d’une même histoire, calcul de l’occurrence de certains mots ou formes lexicales, mise en relation des corpus de données et publications correspondantes, exemples dans le texte d’applications de règles grammaticales, attribution d’une identification de type DOI aux documents de Pangloss…
Promotion de la « science ouverte »
Enfin, le site respecte les principes de la « science ouverte ». Préservation des données : ce vaste catalogue ouvert à tous facilite la conservation, le référencement et la mise à disposition des données de terrain et évite ainsi que ne se perdent les corpus et données. Enrichissement collectif, ensuite : le site est ouvert aux contributions d’experts, universitaires ou non, visant à améliorer transcriptions et traductions.
En outre, les données sont mises librement à disposition des autres scientifiques, y compris d’autres disciplines, à l’instar des informaticiens travaillant sur le traitement automatique des langues : ils peuvent trouver sur Pangloss les fichiers dont ils ont besoin et participer ainsi au développement d’outils d’intelligence artificielle – aux fins de transcription automatique, par exemple.
Un enjeu loin d’être négligeable, rappelle Alexis Michaud : « Pour transcrire manuellement une minute d’enregistrement audio, il faut en moyenne une heure de travail. Mais un informaticien peut entraîner un algorithme d’intelligence artificielle à partir d’une heure d’enregistrement transcrite et concevoir ainsi un outil informatique capable de produire une transcription phonétique ». Si le texte est traduit – en français ou en anglais – l’algorithme peut même aller plus loin, en proposant un découpage du texte mot à mot, voire un brouillon de traduction. « La preuve de concept est faite, précise Alexis Michaud, ça fonctionne. Reste à déployer cet outil qui ferait gagner un temps considérable aux linguistes ».
De leur côté, les chercheurs en IA sont intéressés par le projet Pangloss : pour les grandes langues, le travail a été réalisé par les équipes – bien plus nombreuses – de Google et autres Gafam. Mais les géants du web ne s’intéressent pas aux langues en danger, lesquelles ont donc besoin, pour leur « sauvetage », de la mobilisation des chercheurs d’autres horizons, institutions publiques notamment. Et de sites comme celui de Pangloss, accessible à tous et promoteur d’un travail collaboratif et multidisciplinaire.