Le déficit de diversité linguistique de l'IA : un défi mondial et une occasion manquée
L'intelligence artificielle (IA) est en train de remodeler les industries, les économies et les sociétés, mais un problème flagrant persiste : le manque de diversité linguistique dans les systèmes d'IA. Alors que les capacités linguistiques de l'IA deviennent partie intégrante de secteurs allant des soins de santé à l'éducation, la plupart des systèmes ne sont formés qu'à une fraction des langues du monde. Sur plus de 7 000 langues parlées dans le monde, moins de 100 sont représentées dans les données utilisées pour former les modèles d'IA. Cette approche étroite risque de laisser des milliards de personnes de côté, limitant leur capacité à s'engager pleinement dans l'économie numérique et à bénéficier des progrès de l'IA.
Le fossé se creuse : Une barrière linguistique dans l'IA
Malgré la prolifération rapide des technologies de l'IA, la représentation linguistique reste alarmante. Sur les 34 langues les plus utilisées sur l'internet, aucune n'est africaine, ce qui souligne l'exclusion de continents entiers de la révolution de l'IA. L'anglais reste la langue dominante dans les modèles d'apprentissage de l'IA, alors que moins de 20 % de la population mondiale le parle. Cet avantage des "langues à ressources élevées" contraste fortement avec les nombreuses langues "à ressources faibles" qui sont peu ou pas représentées dans les bases de données de l'IA.
Alors que l'IA s'intègre de plus en plus aux systèmes mondiaux, l'exclusion des langues à faibles ressources menace de creuser les fossés socio-économiques existants. "C'est à la fois un défi et l'une des plus grandes opportunités", déclare Crystal Rugege, directrice générale du Centre pour la quatrième révolution industrielle au Rwanda, qui souligne le potentiel inexploité d'une IA linguistiquement diversifiée. "Nous n'aurons peut-être pas d'applications capables d'interagir dans 1 400 dialectes, mais nous devrions être en mesure de servir la majorité de nos populations."
Les conséquences de l'exclusion
Si les tendances actuelles se poursuivent, de larges pans de la population mondiale pourraient être exclus de l'économie numérique. Les systèmes d'IA ne sont pas seulement des outils techniques, mais aussi des gardiens des ressources, des opportunités et de la croissance économique. Pour les communautés qui luttent déjà contre un accès inadéquat à l'internet et une infrastructure numérique limitée, le manque de diversité linguistique dans l'IA exacerbe les défis existants, créant un fossé encore plus grand entre les communautés linguistiques à ressources élevées et celles à ressources faibles.
Cathy Li, responsable de l'IA, des données et du métavers au Forum économique mondial, prévient que les personnes déjà désavantagées "seront probablement encore plus à la traîne". Les modèles d'IA conçus principalement pour l'anglais et quelques autres langues largement parlées manquent l'occasion d'autonomiser la grande majorité des populations mondiales, en particulier celles qui vivent dans des régions rurales ou à faible revenu.
Le potentiel de l'IA pour l'inclusion : Premières initiatives mondiales
Malgré ces difficultés, de nouveaux efforts sont déployés pour combler les lacunes linguistiques de l'IA. De l'Inde au Rwanda, des pays expérimentent des systèmes d'IA qui prennent en charge un ensemble plus diversifié de langues. Au Rwanda, des applications d'IA linguistiquement diversifiées aident les agents de santé communautaires, qui parlent principalement les langues locales, à fournir des soins critiques dans les zones reculées. M. Rugege présente un modèle de traduction qui permet aux agents de communiquer avec l'IA dans plusieurs langues, ce qui garantit que les patients reçoivent des soins appropriés, même dans les communautés où l'anglais n'est pas parlé.
De même, au Sénégal, des plateformes de soins de santé alimentées par l'IA sont en cours de développement pour s'adapter aux langues officielles du pays, notamment le wolof, le français et d'autres. Comme le souligne Yann LeCun, responsable scientifique de Meta pour l'IA, ces initiatives démontrent le potentiel de l'IA à combler les fossés linguistiques et à fournir des services essentiels dans les zones mal desservies.
Le rôle de l'IA libre et des partenariats mondiaux
L'une des solutions les plus prometteuses pour combler le fossé de la diversité linguistique réside dans les modèles d'IA en libre accès. Ces plateformes permettent aux communautés de développer des systèmes d'IA adaptés à leurs propres langues et contextes culturels. M. LeCun envisage une infrastructure d'IA ouverte, qu'il compare à une "Wikipédia de l'IA", où les développeurs locaux peuvent créer des systèmes qui répondent aux besoins spécifiques de leurs populations.
Les partenariats sont également essentiels pour favoriser la diversité linguistique dans l'IA. Par exemple, la collaboration de Meta avec le gouvernement indien vise à développer des modèles d'IA capables de comprendre les 22 langues officielles de l'Inde, avec le potentiel de s'étendre à des centaines de dialectes. De telles initiatives soulignent l'importance de la coopération intersectorielle pour surmonter les défis techniques et liés aux données qui ont jusqu'à présent limité l'inclusivité linguistique de l'IA.
Vers un avenir plus diversifié en matière d'IA
L'avenir de l'IA doit être inclusif et linguistiquement diversifié si l'on veut qu'elle profite réellement à l'ensemble de l'humanité. Les dirigeants réunis à New York à l'occasion des réunions du Forum économique mondial sur l'impact du développement durable ont souligné que l'IA devait servir tout l'éventail des langues mondiales, reflétant ainsi la riche diversité linguistique et culturelle du monde.
Des chercheurs en IA comme Pascale Fung affirment que la construction de systèmes capables de combler le fossé entre les langues à ressources élevées et les langues à ressources faibles n'est pas seulement un objectif technique, mais un impératif social. Mme Fung préconise la collecte de données linguistiques supplémentaires afin d'affiner les grands modèles linguistiques (LLM) pour qu'ils soient aussi performants que les modèles basés sur l'anglais.
Le chemin à parcourir : Défis et opportunités
Combler le fossé de la diversité linguistique dans l'IA est une tâche énorme, mais c'est aussi une opportunité de transformation. Les gouvernements, les entreprises technologiques et les chercheurs doivent collaborer pour faire en sorte que les systèmes d'IA servent d'outils d'inclusion et non d'exclusion. Des initiatives telles que l'Alliance pour les technologies linguistiques de la Commission européenne (ALT-EDIC) et le développement par les Émirats arabes unis de grands modèles linguistiques tels que NANDA, conçu pour les utilisateurs parlant l'hindi, démontrent que des progrès sont possibles.
L'IA a le potentiel de révolutionner des secteurs allant des soins de santé à l'éducation, mais seulement si elle est accessible à tous. La fracture linguistique dans le domaine de l'IA ne doit pas être considérée comme un simple obstacle, mais comme une opportunité de remodeler le paysage numérique de manière plus inclusive, équitable et innovante.
Comme l'a souligné Yann LeCun, de Meta, "nous avons besoin d'une grande diversité de systèmes d'IA pour répondre à la diversité de nos intérêts, de nos normes culturelles, de nos systèmes de valeurs et de nos langues". Sans efforts concertés pour inclure les langues à faibles ressources, la révolution de l'IA risque de laisser des milliards de personnes de côté. L'avenir de l'IA doit être aussi diversifié que le monde qu'elle vise à servir