En quelle langue travaillent-elles ? ≈048
Du mauvais usage de la BNF François-Mitterand et de sa relation avec la modeste présence du français sur le web, aggravée par les modes de travail de l’intelligence artificielle.
Bonjour,
Les idées, les prises de position contradictoires ont le mérite d’être stimulantes. Ainsi en va-t-il de certains sentiments, minoritaires, concernant la BNF François Mitterand. Ses partisans sont nombreux et leurs arguments connus.
L'édifice est impressionnant. Nos livres historiques méritent un bel endroit où les conserver et les consulter. Mais combien je regrette (cela a toujours été le cas) qu’on n’aie pas consacré une partie de ces ressources à digitaliser à tour de bras et très tôt (essentiel sur le web) le corpus francophone. Nous serions aujourd’hui dans une situation différente face aux biais linguistiques du web et de l’intelligence artificielle.
Du mauvais usage de la BNF François Miterrand
Les « briques » (les constructions en dur) l’ont emporté sur l’immatériel (comme ils disent) et, aujourd’hui, le digital est à la traîne malgré les plus de dix millions de documents numérisés sur Gallica qui ne sauraient nous tirer d’affaire face à la prolifération des langues sur le web.
Or, je reviens de trois semaines au Mexique, où j’ai vécu 15 ans, et où je me suis retrouvé devant l’évidence concrète, pratique, quotidienne, que les gens pensent différemment dans des langues différentes.
Heureux hasard, je trouve au retour un article de l’excellent Thomas Mahier, cofondateur et actuel CTO de Flint Media, qui nous explique, à propos de l’une d’entre elles : « vous parlez français, elle pense anglais, et vous répond chinois ! »
Comment ça bosse là-dedans ?
Permettez-moi un tout petit nombre de rappels pour commencer :
- Langues les plus parlées dans le monde (dans l’ordre) : anglais, chinois, hindi, espagnol, français, arabe, etc.
- Langues les plus utilisées sur le web (dans l’ordre) : anglais (52%), espagnol (5,5%), allemand, russe, japonais, français (4,3%), portugais etc.
- Mais… entre 80 et 90% des textes utilisés par les plus grandes plateformes d’intelligence artificielle sont en anglais !
Nous ne disposons pas, à ma connaissance, de données précises sur le multilinguisme des plateformes les plus importantes (OpenAI, Google, Anthropic… etc), si ce n’est que Mistral, entreprise créée par trois français, fait des efforts pour inclure des proportions plus grande de langues… européennes.
Chance : l’institut Fédéral Polytechnique de Lausanne (EPFL) vient de rendre publique les résultats d’une recherche approfondie sur le fonctionnement d’un de ces services : LLAMA, le système d’IA de Meta-Facebook.
Multilingue - comme ses semblables - il peut traduire un grand nombre de langues et semble passer de l’une à l’autre sans difficulté. Mais il ne suffit pas, quand on demande comment dire « bonjour » en finnois ou en vietnamien d’avoir une réponse correcte. Il faut y voir clair sur le parcours suivi pour arriver à ce résultat.
Les plus performants d’entre eux fonctionnent avec des technologies dites d’apprentissage profond qui consistent à faire passer les données par de multiples couches de travail (les réseaux neuronaux artificiels inspirés du fonctionnement de notre cerveau un peu comme les ailes d’un avion peuvent nous rappeler celles d’un oiseau).
Ils disent « multilingue » ! Pas faux, pas clair
Pour s’y retouver, les chercheurs de l’IPFL ont suivi, entre autres, toutes les étapes du passage du français au chinois quand on demande à LLAMA comment se dit « fleur » dans le langage de Confucius. Et voilà que processus passe par des couches qui ne sont ni dans la langue du maître chinois, ni dans celle de Victor Hugo, mais dans celle de Shakespeare (ou ce qu’il en reste quand elle est moulinée par les techniques de l’IA).
Dire que LLAMA « pense » en anglais, me semble un peu rapide et je préfère me demander, comme se limite à le faire l’EPFL, « dans quelle langue travaille-t-il ? »
En clair on passe d’à peu près n’importe quelle langue à n’importe quelle autre en transitant par une « langue pivot » : l’anglais.
Quels sont les inconvénients ?
Thomas Mahier estime que l’on risque de perdre des nuances. Il a raison. On voit sans peine où cela peu conduire dans les relations entre peuples et institutions parlant des langues différentes. On a inventé et mené des guerres pour moins que ça.
C’est aussi bien plus grave.
L’étude, dont la méthode devra être appliquée à d’autres modèles d’IA, met à jour le fait qu’il ne s’agit pas seulement de quantité de données (majoritairement en anglais) mais que dans certains cas on fait passer les traductions entre les autres langues par celle-ci.
La mécanique du biais est dans le fruit. Les langues ça mène loin.
Cité par Benoît Raphaël (l’autre cofondateur de Flint.media), Sam Altman, patron de OpenAI (à qui nous devons ChatGPT) ne voit-il pas dans la course vers des intelligences artificielles toujours plus sophistiquées « une gigantesque lutte de pouvoir » ?
Pour qui aurait besoin de plus…
Qui souhaite en savoir plus sans s’égarer dans les sources scientifiques trouvera dans ce post de mon ami Benoît Raphaël un « guide ultime des chatbots d’IA en 2024 » et dans le billet conjoint de Thomas Mahier des explications plus complètes sur le biais linguistique reposant sur l’étude de l’IPFL mentionnée dans ce billet.
Je m’en tiens, pour ma part à l’objectif de Myriades qui est de rendre accessible au plus grand nombre - ce que j’appelle « culturation » ou acquisition douce d’une culture nouvelle - les enjeux des technologies de l’information à l’heure de l’IA.
Autre chose : Fantomas est-il de retour ?
Les hommes ont de plus en plus souvent la boule à zéro. Il suffit de s’arracher à son portable dans un lieu public pour le constater.
On pourrait craindre que Fantomas - le maléfique centenaire - soit de retour. A moitié en tous cas car, s’il a bien la boule à zéro, il est plus souvent mal rasé aujourd’hui que totalement glabre.
Que se passe-t-il ?
Essayons de répondre par une autre question : et si c’était la faute à la tech tout autant qu’une question de mode ?
Souriez et pensez-y !
Bien différentes des rasoirs électriques traditionnels les tondeuses récentes permettent d’exercer, sur notre système pileux, un contrôle jadis réservé au coiffeur. En moins cher et plus rapide puisqu’on ne se rase même plus tous les matins.
Pareil qu’avec les technologies perturbatrices.
Nous sommes loin de l’intelligence artificielle (pour le moment) mais au coeur d’un sujet déterminant : les outils que nous inventons, les technologies que nous innovons nous façonnent.
Souriez mais pensez-y !
Ce qui est dommage c'est que la BNF a les moyens d'exister sur le web, en dehors des numérisations (qu'elle accompli par ailleurs). Elle dispose d'une armée de spécialistes pointus qui écrivent beaucoup mais qui ont peu de visibilité.
Thomas Mahier, et non pas Thomas Meyer (trois fois dans l’article) 😌