08 Oct Plus rapide, plus intelligent, plus ouvert : une nouvelle façon d’accélérer les modèles d’IA
Les algorithmes développés par les chercheurs de l’Institut Weizmann et d’Intel Labs permettent aux développeurs d’IA du monde entier de combiner la puissance de différents modèles d’IA qui « pensent » comme un seul.
Tout comme les personnes de différents pays parlent des langues différentes, les modèles d’IA créent également divers « langages » internes, un ensemble unique de tokens compris uniquement par chaque modèle. Jusqu’à récemment, il n’existait aucun moyen pour les modèles développés par différentes entreprises de communiquer directement, de collaborer ou de combiner leurs forces pour améliorer leurs performances. Cette semaine, lors de la Conférence internationale sur l’apprentissage automatique (ICML) à Vancouver, au Canada, des scientifiques de l’Institut Weizmann des sciences et d’Intel Labs présentent un nouvel ensemble d’algorithmes qui permettent de surmonter cet obstacle et offrent aux utilisateurs la possibilité de bénéficier de la puissance de calcul combinée de modèles d’IA travaillant ensemble. Ces nouveaux algorithmes, déjà accessibles à des millions de développeurs d’IA à travers le monde, accélèrent en moyenne de 1,5 fois les performances des grands modèles linguistiques (LLM), qui sont aujourd’hui les modèles de pointe en matière d’IA générative
(de gauche à droite) Prof. David Harel et Nadav Timor
Les LLM, tels que ChatGPT et Gemini, sont des outils puissants, mais ils présentent des inconvénients majeurs : ils sont lents et consomment beaucoup de puissance de calcul. En 2022, les grandes entreprises technologiques ont réalisé que les modèles d’IA, tout comme les êtres humains, pouvaient tirer profit de la collaboration et de la division du travail. Cela a conduit au développement d’une méthode appelée « décodage spéculatif », dans laquelle un petit modèle rapide, possédant des connaissances relativement limitées, fait une première estimation tout en répondant à la requête d’un utilisateur, puis un modèle plus grand, plus puissant mais plus lent, examine et corrige la réponse si nécessaire. Le décodage spéculatif a été rapidement adopté par les géants de la technologie car il maintient une précision de 100 %, contrairement à la plupart des techniques d’accélération qui réduisent la qualité du résultat. Mais il présentait une limitation importante : les deux modèles devaient « parler » exactement le même langage numérique, ce qui signifiait que les modèles développés par différentes entreprises ne pouvaient pas être combinés.
« Les géants de la technologie ont adopté le décodage spéculatif, bénéficiant ainsi de performances plus rapides et économisant des milliards de dollars par an en coûts de puissance de traitement, mais ils étaient les seuls à avoir accès à des modèles plus petits et plus rapides qui parlent le même langage que les modèles plus grands », explique Nadav Timor, doctorant dans l’équipe de recherche du professeur David Harel au Département d’Informatique et de Mathématiques Appliquées de Weizmann, qui a dirigé ce nouveau développement. « En revanche, une start-up cherchant à tirer parti du décodage spéculatif devait former son propre petit modèle correspondant au langage du grand modèle, ce qui nécessite une grande expertise et des ressources informatiques coûteuses. »
Les nouveaux algorithmes développés par les chercheurs de Weizmann et d’Intel permettent aux développeurs d’associer n’importe quel petit modèle à n’importe quel grand modèle, afin qu’ils fonctionnent en équipe. Pour surmonter la barrière linguistique, les chercheurs ont proposé deux solutions.
(de gauche à droite) Moshe Berchansky, Daniel Korat, Oren Pereg et Moshe Wasserblat / Intel Labs
Tout d’abord, ils ont conçu un algorithme qui permet à un LLM qui produit des données sous forme de tokens (actifs numériques représentant une valeur ou un droit spécifique, comme par exemple l’accès à un service ou des droits de vote) de traduire ces tokens dans un format commun que tous les modèles peuvent comprendre. Ensuite, ils ont créé un autre algorithme qui incite ces modèles à s’appuyer principalement, dans leur travail collaboratif, sur des tokens qui ont la même signification dans tous les modèles, à l’instar de mots tels que « banane » ou « internet », qui sont pratiquement identiques dans toutes les langues humaines.
« Au début, nous craignions que trop d’informations ne soient « perdues dans la traduction » et que les différents modèles ne puissent pas collaborer efficacement », explique Nadav. Timor. « Mais nous avions tort. Nos algorithmes accélèrent les performances des LLM jusqu’à 2,8 fois, ce qui permet de réaliser d’énormes économies en termes de puissance de traitement. »
L’importance de cette recherche a été reconnue par les organisateurs de l’ICML, qui ont sélectionné l’étude pour une présentation publique, une distinction accordée à seulement 1 % des 15 000 candidatures reçues cette année. « Nous avons résolu un problème d’inefficacité fondamental de l’IA générative », explique Oren Pereg, chercheur senior chez Intel Labs et coauteur de l’étude. « Il ne s’agit pas seulement d’une amélioration théorique, mais d’outils pratiques qui aident déjà les développeurs à créer des applications plus rapides et plus intelligentes. »
Au cours des derniers mois, l’équipe a publié ses algorithmes sur la plateforme d’IA open source Hugging Face Transformers, les rendant ainsi accessibles gratuitement aux développeurs du monde entier. Depuis, ces algorithmes font partie des outils standard permettant d’exécuter efficacement des processus d’IA.
« Cette nouvelle avancée est particulièrement importante pour les appareils périphériques, des téléphones aux drones en passant par les voitures autonomes, qui doivent fonctionner avec une puissance de calcul limitée lorsqu’ils ne sont pas connectés à Internet », ajoute Nadav Timor. « Imaginez, par exemple, une voiture autonome guidée par un modèle d’IA. Dans ce cas, un modèle plus rapide peut faire la différence entre une décision sûre et une erreur dangereuse. »
La Science en Chiffres
Les nouveaux algorithmes accélèrent les performances des grands modèles linguistiques (LLM) de 1,5 fois en moyenne, et jusqu’à 2,8 fois.