Publicité

Intelligence artificielle : comment les Gafam s'attaquent au problème des langues rares 

Contenu réservé aux abonnés

Les larges modèles de langage (LLM) de Google, Meta et OpenAI reposent sur des quantités astronomiques de texte en anglais. Pour construire des LLM véritablement mondiaux, les géants du secteur doivent constituer des bases de données dans les langues rares.

Les LLM de Meta, Google ou OpenAI reposent essentiellement sur l'anglais, la langue la plus présente sur Internet. 
Les LLM de Meta, Google ou OpenAI reposent essentiellement sur l'anglais, la langue la plus présente sur Internet. (iStock)

Par Raphaël Balenieri

Publié le 15 févr. 2024 à 07:01Mis à jour le 15 févr. 2024 à 18:51
Réservé à nos abonnés

Plus de 7.000 langues existent dans le monde. Mais les larges modèles de langage (LLM), sur lesquels repose l'intelligence artificielle générative, ont été conçus en grande partie sur une seule : l'anglais. Le fait que la langue de Shakespeare soit aussi la langue mondiale et la plus utilisée sur Internet a été un atout indéniable pour OpenAI, Meta et Google. Pour auto-apprendre et s'autocorriger et générer du texte, leurs LLM respectifs (GPT-4 pour OpenAI, Llama 2 chez Meta, Gemini pour Google) n'ont eu qu'à mouliner des quantités astronomiques de texte en anglais : pages Web, rapports, thèses universitaires…

Or, afin que leurs outils d'IA générative soient in fine utilisés dans le monde entier, leurs LLM doivent aussi comprendre les langues plus rares, comme le finnois ou les langues non latines. « L'écart des données est énorme : 45%du contenu d'Internet est en anglais, contre 5 % pour le français et moins de 1 % pour l'ensemble des langues africaines », rappelle Abdoulaye Diack, senior program manager chez Google Research au Ghana.

Ce contenu est réservé aux abonnés Access et Premium

Analyses économiques et 100% des articles Patrimoine : l’offre Access est faite pour vous !

    Je débloque l'articleDéjà abonné ? Connectez-vous

    Nos Vidéos

    xx0urmq-O.jpg

    SNCF : la concurrence peut-elle faire baisser les prix des billets de train ?

    xqk50pr-O.jpg

    Crise de l’immobilier, climat : la maison individuelle a-t-elle encore un avenir ?

    x0xfrvz-O.jpg

    Autoroutes : pourquoi le prix des péages augmente ? (et ce n’est pas près de s’arrêter)

    Publicité