Intelligence artificielle : comment les Gafam s'attaquent au problème des langues rares Contenu réservé aux abonnés
Contenu réservé aux abonnés
Les larges modèles de langage (LLM) de Google, Meta et OpenAI reposent sur des quantités astronomiques de texte en anglais. Pour construire des LLM véritablement mondiaux, les géants du secteur doivent constituer des bases de données dans les langues rares.
Plus de 7.000 langues existent dans le monde. Mais les larges modèles de langage (LLM), sur lesquels repose l'intelligence artificielle générative, ont été conçus en grande partie sur une seule : l'anglais. Le fait que la langue de Shakespeare soit aussi la langue mondiale et la plus utilisée sur Internet a été un atout indéniable pour OpenAI, Meta et Google. Pour auto-apprendre et s'autocorriger et générer du texte, leurs LLM respectifs (GPT-4 pour OpenAI, Llama 2 chez Meta, Gemini pour Google) n'ont eu qu'à mouliner des quantités astronomiques de texte en anglais : pages Web, rapports, thèses universitaires…
Or, afin que leurs outils d'IA générative soient in fine utilisés dans le monde entier, leurs LLM doivent aussi comprendre les langues plus rares, comme le finnois ou les langues non latines. « L'écart des données est énorme : 45%du contenu d'Internet est en anglais, contre 5 % pour le français et moins de 1 % pour l'ensemble des langues africaines », rappelle Abdoulaye Diack, senior program manager chez Google Research au Ghana.
Ce contenu est réservé aux abonnés Access et Premium