Une étude révèle la grammaire musicale cachée du langage naturel

Au-delà des mots

Une étude révèle la grammaire musicale cachée du langage naturel.

La révolution de l’IA, qui a commencé à transformer nos vies au cours des trois dernières années, repose sur un principe linguistique fondamental qui est à la base des grands modèles linguistiques tels que ChatGPT. Les mots d’une langue naturelle ne sont pas assemblés de manière aléatoire, mais obéissent à une structure statistique qui permet au modèle de deviner le mot suivant en se basant sur ce qui précède. Cependant, ces modèles négligent une dimension essentielle de la communication humaine : le contenu qui n’est pas transmis par les mots. Dans une nouvelle étude publiée dans les Proceedings of the National Academy of Sciences, USA (PNAS), des chercheurs du laboratoire du professeur Elisha Moses de l’Institut Weizmann des Sciences révèlent que la mélodie de la parole dans les conversations spontanées en anglais fonctionne comme une langue distincte, avec un « vocabulaire » de centaines de mélodies de base et même des règles de syntaxe qui peuvent être utilisées pour prédire la mélodie suivante dans la séquence. Cette étude jette les bases d’une intelligence artificielle capable de comprendre le langage au-delà des mots.

Un dictionnaire prosodique : 9 des quelque 200 modèles prosodiques de base (séquences de variations de hauteur tonale représentées par une courbe) courants dans les conversations spontanées en anglais. Chaque « mot » prosodique véhicule une signification relative à l'attitude du locuteur vis-à-vis de ce qui est dit.
Un dictionnaire prosodique : 9 des quelque 200 modèles prosodiques de base (séquences de variations de hauteur tonale représentées par une courbe) courants dans les conversations spontanées en anglais. Chaque « mot » prosodique véhicule une signification relative à l’attitude du locuteur vis-à-vis de ce qui est dit.

La mélodie, ou musique, de la parole, désignée par le terme linguistique « prosodie », englobe les variations de hauteur (intonation), d’intensité (par exemple, pour mettre l’accent), de tempo et de qualité sonore (comme un murmure ou une voix rauque). Cette forme d’expression est antérieure à l’apparition des mots dans l’évolution : des études récentes révèlent que les chimpanzés et les baleines intègrent des structures prosodiques complexes dans leur communication. Dans la communication humaine, la prosodie ajoute une couche de sens nuancée qui va au-delà des mots. Une brève pause, tout comme une virgule, peut changer le sens d’une phrase (« Let’s eat Grandma ») et le tempo d’un texte parlé peut créer du suspense. Les linguistes spécialisés dans la prosodie ont traditionnellement étudié les textes littéraires et la manière dont la prosodie reflète les changements historiques. Cela signifie que, malgré l’importance cruciale de la prosodie pour la compréhension du langage humain, son étude est restée pendant des années un domaine de niche, dépourvu d’applications et rempli d’idées contradictoires sur la structure et la signification de la prosodie.

La prosodie, cependant, fait partie intégrante de toute conversation. Elle attribue une fonction linguistique aux mots – par exemple, s’ils posent une question ou énoncent un fait – et révèle l’attitude des locuteurs à l’égard de ce qu’ils disent. Dans cette nouvelle étude, menée par le linguiste Nadav Matalon et le neuroscientifique Eyal Weinreb, du laboratoire du Prof. Moses au Département de Physique des Systèmes Complexes de l’Institut Weizmann, les chercheurs ont analysé la prosodie comme une langue inconnue, dans le but de fournir une explication fondée sur des données du mystère linguistique que constituent la structure et la signification de la prosodie. Plutôt que de s’appuyer sur la littérature, ils ont utilisé deux vastes collections d’enregistrements audio de conversations spontanées, l’une de conversations téléphoniques entre deux participants et l’autre de conversations en face à face dans divers lieux, tels qu’une cuisine ou une salle de classe.

La première tâche de l’équipe de recherche a consisté à compiler un dictionnaire des courtes mélodies qui fonctionnent comme des « mots » dans la prosodie anglaise et à attribuer à chacune d’elles une fonction et une signification. « Pour comprendre pourquoi il n’existe pas encore de dictionnaire prosodique, il faut se rappeler qu’il n’existait même pas de dictionnaire anglais complet avant le XIXe siècle », explique le Prof. Moses. « Lorsque l’université d’Oxford a été chargée d’en compiler un, elle a demandé au public de l’aider en envoyant des citations illustrant l’évolution historique du sens des mots. L’un des principaux contributeurs était un prisonnier qui a passé plus de 20 ans à lire des livres et à envoyer des citations. Dans notre étude, au lieu de collecter nous-mêmes des informations pendant des décennies, nous avons analysé d’énormes collections d’enregistrements audio à l’aide de l’IA.»

(l-r) Dr. Dominik Freche, Prof. Elisha Moses, Dr. Nadav Matalon, Dr. Eyal Weinreb and Ophira Blumner
(l-r) Dr. Dominik Freche, Prof. Elisha Moses, Dr. Nadav Matalon, Dr. Eyal Weinreb and Ophira Blumner

La mélodie de la parole de chaque personne est unique, mais le modèle d’IA a identifié plusieurs centaines de motifs de base qui se répètent, avec de légères variations, dans toutes les conversations spontanées en anglais. Alors que les mots écrits sont des séquences de lettres, un « mot » prosodique est une courte mélodie, c’est-à-dire une courte séquence de sons de hauteur variable, d’une durée moyenne d’environ une seconde. Pour déterminer la signification de ces « mots »,le docteur   Matalon a échantillonné 20 motifs mélodiques de base, puis a réécouté les enregistrements. « Nous avons découvert que chaque motif a plusieurs fonctions linguistiques », explique-t-il. « Par exemple, selon le contexte, un motif peut définir si quelqu’un pose une question ou fait une déclaration. Cependant, chaque motif traduit généralement une attitude spécifique du locuteur – telle que la curiosité, la surprise ou la confusion – à l’égard de ce qui est dit. Un « mot » prosodique courant est une forte augmentation de la hauteur tonale suivie d’une baisse rapide. Ce motif traduit l’enthousiasme et, selon le contexte, peut exprimer un accord total ou la reconnaissance d’une nouvelle information importante. »

Les chercheurs ont ensuite tenté d’identifier les règles syntaxiques régissant l’ordre de ces schémas prosodiques, qui pourraient permettre à de futurs modèles d’apprentissage des langues de comprendre et d’utiliser la prosodie. « Nous avons remarqué que certains schémas ont tendance à apparaître les uns à côté des autres, par paires, dans le langage spontané », explique le docteur Weinreb. « Il s’agit d’un système statistique simple, dans lequel le choix correct de l’unité suivante dans une séquence dépend uniquement de la précédente. Ce système fonctionne bien dans les conversations spontanées, car il ne nécessite que quelques secondes de planification, ce qui correspond à la durée de la mémoire à court terme. ». Les chercheurs ont découvert que ces paires de motifs agissent comme des phrases simples, exprimant « une nouvelle idée », de sorte que chaque paire se rapporte à un sujet spécifique et ajoute une information à son sujet, par exemple en faisant référence à un fait mentionné dans la conversation et en fournissant un retour positif.

« Notre étude jette les bases du développement d’un système automatisé qui compilera un « dictionnaire » de prosodie et identifiera ses règles syntaxiques pour chaque langue humaine et pour différentes populations de locuteurs », explique le prof. Moses.

« La prosodie peut varier en fonction du statut social, des événements historiques et de l’âge des locuteurs, et ces variations peuvent même se manifester dans des œuvres littéraires qui reflètent fidèlement le langage spontané », ajoute le docteur Matalon. « Nous avons analysé des livres audio dans le cadre de cette étude et avons découvert que les schémas prosodiques sont plus longs dans les discours écrits et que la syntaxe simple et appariée des conversations spontanées a disparu. Il existe également d’autres différences. On peut supposer sans risque que le processus de vieillissement et l’acquisition du langage pendant l’enfance s’accompagnent également de changements prosodiques quantifiables. De plus, il existe des preuves que la prosodie est importante dans le langage interne – le langage de la pensée – et que nous pouvons approfondir notre compréhension de la prosodie existante des voix robotiques produites par des dispositifs de synthèse vocale. Le modèle que nous avons créé promet de combler les lacunes apparues au fil des siècles dans la recherche sur l’expression au-delà des mots. »

Une application majeure d’un dictionnaire prosodique automatisé pourrait être le développement d’une IA capable de comprendre et de transmettre des messages à travers la mélodie de la parole plutôt que par les mots seuls. « Imaginez que Siri puisse comprendre, à partir de la mélodie de votre voix, ce que vous pensez d’un sujet donné, ce qui est important pour vous ou si vous pensez en savoir plus qu’elle », ajoute le docteur Weinreb, « et qu’elle puisse adapter sa réponse pour la rendre enthousiaste ou triste. Nous disposons déjà d’implants cérébraux qui convertissent l’activité neuronale en parole pour les personnes qui ne peuvent pas parler. Si nous parvenons à enseigner la prosodie à un modèle informatique, nous ajouterons une dimension supplémentaire à l’expression humaine qui fait actuellement défaut aux systèmes robotiques. »

La Science en Chiffres

Alors que les anglophones utilisent des milliers de mots par jour dans une conversation spontanée, cette étude révèle que leur discours n’est complété que par 200 à 350 schémas prosodiques de base.



Processing...
Thank you! Your subscription has been confirmed. You'll hear from us soon.
ErrorHere