Intelligence artificielle : comment les Gafam s'attaquent au problème des langues rares
Contenu réservé aux abonnés

Les larges modèles de langage (LLM) de Google, Meta et OpenAI reposent sur des quantités astronomiques de texte en anglais. Pour construire des LLM véritablement mondiaux, les géants du secteur doivent constituer des bases de données dans les langues rares.

Facebook - Meta

Google

Par Raphaël Balenieri

Publié le 15 févr. 2024 à 07:01Mis à jour le 15 févr. 2024 à 18:51

Réservé à nos abonnés

Plus de 7.000 langues existent dans le monde. Mais les larges modèles de langage (LLM), sur lesquels repose l'intelligence artificielle générative, ont été conçus en grande partie sur une seule : l'anglais. Le fait que la langue de Shakespeare soit aussi la langue mondiale et la plus utilisée sur Internet a été un atout indéniable pour OpenAI, Meta et Google. Pour auto-apprendre et s'autocorriger et générer du texte, leurs LLM respectifs (GPT-4 pour OpenAI, Llama 2 chez Meta, Gemini pour Google) n'ont eu qu'à mouliner des quantités astronomiques de texte en anglais : pages Web, rapports, thèses universitaires…

Or, afin que leurs outils d'IA générative soient in fine utilisés dans le monde entier, leurs LLM doivent aussi comprendre les langues plus rares, comme le finnois ou les langues non latines. « L'écart des données est énorme : 45%du contenu d'Internet est en anglais, contre 5 % pour le français et moins de 1 % pour l'ensemble des langues africaines », rappelle Abdoulaye Diack, senior program manager chez Google Research au Ghana.

Ce contenu est réservé aux abonnés Access et Premium

Analyses économiques et 100% des articles Patrimoine : l’offre Access est faite pour vous !

Je débloque l'article Déjà abonné ? Connectez-vous

Nos Vidéos

Les jeunes ont-ils vraiment un problème avec le travail ?

On a toujours soupçonné les jeunes de ne pas trop aimer travailler. Si l’on en croit les clichés, les jeunes seraient fainéants, cupides ou encore insolents. Mais qu’en est-il vraiment ? À quoi aspirent les jeunes au travail ? Réponses en vidéo.

Intelligence artificielle : comment les Gafam s'attaquent au problème des langues rares
Contenu réservé aux abonnés

Analyses économiques et 100% des articles Patrimoine : l’offre Access est faite pour vous !

Nos Vidéos

Les jeunes ont-ils vraiment un problème avec le travail ?

SNCF : la concurrence peut-elle faire baisser les prix des billets de train ?

Crise de l’immobilier, climat : la maison individuelle a-t-elle encore un avenir ?

Autoroutes : pourquoi le prix des péages augmente ? (et ce n’est pas près de s’arrêter)

Google veut rectifier le tir dans l'IA Premium

Au Texas, une IA va corriger des copies pour économiser le salaire des professeurs

IA : Elon Musk cherche à lever jusqu'à 4 milliards pour concurrencer ChatGPT

Le coup de mou des ventes de voitures électriques en Europe se confirme

Paris et Brasilia main dans la main pour un impôt minimum des plus riches

Violence chez les jeunes : Gabriel Attal souhaite sanctionner les élèves perturbateurs

Intelligence artificielle

IA : Microsoft investit 1,5 milliard de dollars aux Emirats arabes unis

IA : les prédictions optimistes de quatre grands patrons américains

OpenAI courtise les entreprises