La place du français en science : et si l’on osait la traduction automatique?

Allocution

Bonjour,

Je suis vraiment très heureux d’être avec vous aujourd’hui pour parler de la place du français en science.

Je suis particulièrement heureux d’être ici, à l’Université de Montréal, non seulement parce que c’est un endroit où j’ai passé certaines des plus belles années de ma vie, mais aussi parce que cette institution regroupe plusieurs chercheurs ou autres acteurs institutionnels pour qui la promotion du français dans l’enseignement et la recherche est une véritable passion.

L’idée d’organiser cette journée d’étude nous est venue à la suite de la publication, cet automne, d’un avis que nous avons rédigé sur le rôle que les technologies de traduction jouent – et pourraient encore mieux jouer – dans le renforcement de la place du français et du multilinguisme en science. 

Je remercie tout particulièrement madame Cormier et madame Vocaj, et toute l’équipe d’UdeM français, qui ont accepté de travailler avec mon équipe à l’organisation de cette journée. Je remercie aussi les membres du comité d’orientation : monsieur Barabé, madame Bowker, madame Niemann et monsieur Raimbert, qui ont contribué à en définir le programme. Un grand merci finalement à Marc Tremblay-Faulkner, lui aussi diplômé de l’Université de Montréal, qui a piloté le dossier dans mon équipe.

Alors, le français en science… Je ne veux pas revenir trop longuement sur le diagnostic qui, à ce moment-ci, est connu de tous. Nous savons à quel point l’anglais s’est imposé dans plusieurs domaines comme langue unique de la publication scientifique, comme langue dominante des événements scientifiques et comme langue de plus en plus importante de l’enseignement et du travail universitaire lui-même. Nous savons que la communauté scientifique tire des avantages considérables de la présence de l’anglais pour ce qui est de circulation des idées à l’échelle internationale. Néanmoins, il en découle aussi certains désavantages, qui sont de plus en plus connus. Je rappelle les principaux : 

  • l’iniquité pour les chercheurs non anglophones, qui doivent fournir un effort supplémentaire pour produire et consommer du savoir;
  • l’iniquité pour les sociétés non anglophones qui veulent accéder au savoir et en tirer profit;
  • les répercussions potentielles sur la qualité de la formation, quand les étudiants doivent réaliser leurs apprentissages dans une langue qu’ils maîtrisent moins bien;
  • la marginalisation des thèmes de recherche locaux ou nationaux;
  • les répercussions sur la vitalité des langues autres que l’anglais, qui perdent leur capacité à décrire une partie du réel.

Aujourd’hui, je tiens pour acquis que nous partageons, pour ainsi dire, le même point de départ. D’un côté, nous sommes tous d’accord pour dire qu’il ne serait pas réaliste de penser que l’anglais va être détrôné à court ou moyen termes comme langue véhiculaire de la science à l’échelle internationale. Les avantages de sa présence sont tout simplement trop grands. D’un autre côté, je tiens pour acquis que nous sommes tous sensibles aux répercussions négatives de cet unilinguisme et soucieux de trouver des manières de les atténuer. Nous voulons le faire en aménageant des systèmes d’enseignement et de recherche qui favorisent un certain multilinguisme et qui assurent un certain équilibre avec les langues nationales.

Il y a six ans, lorsque je travaillais dans la fonction publique fédérale, si vous m’aviez dit que l’intelligence artificielle et la traduction automatique neuronale pouvaient jouer un rôle pour atteindre cet équilibre, je ne vous aurais pas cru. Pourtant, deux ans plus tard, mon équipe produisait en un temps record des rapports scientifiques bilingues, de deux cents pages, à l’attention du ministre de l’Environnement, en s’appuyant sur une utilisation judicieuse de la traduction automatique neuronale et – et je me permets de le souligner – sur les compétences d’une personne formée à la terminologie et à la postédition.

En discutant autour de moi, j’ai rapidement compris que nous n’étions pas les seuls dont les usages linguistiques étaient transformés par la technologie. Les initiés savaient peut-être que la traduction automatique neuronale était sur le point de faire un pas de géant, mais la vitesse à laquelle elle a atteint le grand public fut stupéfiante. Aujourd’hui, la traduction automatique neuronale est intégrée aux navigateurs Web, aux réseaux sociaux, aux services de courriel, ou encore à la suite Office. Vous avez peut-être remarqué que, quand vous préparez un document Word ou PowerPoint, vous pouvez en un clic en produire une version dans une autre langue. Et évidemment, les progrès ne se limitent pas au domaine de l’écrit. Grâce aux avancées de la reconnaissance et de la synthèse vocales, la traduction automatique est aujourd’hui pleinement intégrée aux plateformes de diffusion en continu et aux applications de vidéoconférence, sous la forme d’une transcription automatique, ou encore elle peut être utilisée pour le doublage automatique de la voix.

Il faut aussi mentionner l’intelligence artificielle générative, qui nous ouvre aujourd’hui des univers inconnus. Déjà, depuis quelques années, il était devenu difficile de déterminer si un contenu avait été traduit par un humain ou une machine. Aujourd’hui, on n’en est plus là. Il est même devenu difficile de déterminer si un contenu a été produit par un humain en premier lieu. On a atteint le point où les algorithmes peuvent générer du contenu, incluant du contenu scientifique plausible, de manière automatique. Les étudiants peuvent ainsi demander à ChatGPT de rédiger leurs travaux de session, puis les enseignants peuvent demander à la même application de corriger lesdits travaux. C’est parfait. 

À ce sujet, Marc Tremblay-Faulkner a attiré mon attention sur une étude qui vient de paraître et qui porte sur l’utilisation par les chercheurs de ChatGPT pour produire des « évaluations par les pairs » de communications soumises à des colloques sur l’intelligence artificielle. Les auteurs estiment qu’entre 6,5 % et 16,9 % du contenu des évaluations par les pairs auraient été générés ou fortement altérés par un assistant de type ChatGPT. 

L’arrivée de l’IA générative soulève aussi des questions intéressantes en matière de traduction et de multilinguisme. Non seulement les assistants peuvent être utilisés pour produire des traductions, mais ils peuvent aussi produire du contenu dans plus d’une langue en même temps, par exemple un résumé ou une revue de la littérature. On peut donc avoir un texte multilingue sans qu’on puisse parler d’une « langue source » ou d’une « langue d’arrivée ».

Il va de soi que ces changements ont des répercussions profondes sur notre relation au langage et aux langues. C’est vrai dans tous les domaines, mais c’est particulièrement vrai dans un domaine comme celui de la science, où l’on génère beaucoup de contenu et où l’on évolue dans un environnement qui est cosmopolite par sa nature même.

Dans notre avis, nous avons avancé plusieurs pistes d’action visant non seulement à tirer profit de la technologie, mais aussi à éviter certains écueils qui pourraient découler d’une utilisation mal avisée. L’idée est que le français – et les autres langues, de façon générale – profite déjà des progrès de l’intelligence artificielle en science, mais qu’on reste pour l’instant dans un usage qui est non structuré. Cette situation entraîne deux problèmes : d’une part, elle nous empêche de tirer pleinement avantage des technologies; d’autre part, elle entraîne des risques, notamment en ce qui concerne la qualité des textes et le respect de la propriété intellectuelle. Nous aurons plusieurs spécialistes aujourd’hui qui vont nous aider à comprendre ces avantages et ces risques. Ils nous présenteront aussi ce qui se passe dans différents milieux professionnels, que ce soit dans l’administration publique, dans la grande entreprise ou dans les cabinets de traduction.

Dans les discussions entourant la préparation de cette journée, nous avons rapidement convenu de l’importance d’aller s’inspirer de ce qui passe à l’extérieur du milieu scientifique à proprement parler. On le reconnaîtra sans peine : dans le milieu universitaire, parfois, les gens peuvent être très concentrés sur leurs projets, sur leurs travaux, et avoir tendance à perdre de vue certains développements qui ont lieu dans la société plus large. Donc, je suis vraiment très content qu’on prenne le temps de regarder comment travaillent les gens dans d’autres contextes organisationnels qui, eux aussi, ont besoin de produire de grands volumes de textes scientifiques et techniques en différentes langues. 

Maintenant, pour ce qui est du milieu scientifique lui-même, dans notre avis, nous distinguons trois niveaux d’action possibles : 

  • celui de l’établissement universitaire lui-même, qui peut faire preuve de leadership; 
  • celui du Québec (et du Canada); 
  • celui à l’échelle de la francophonie et mondiale. 

Les axes sur lesquels nous pensons qu’il est possible d’agir sont nombreux. Permettez-moi de mentionner les principaux. 

Le premier, et peut-être le plus important, est celui de la littératie numérique et des compétences métalinguistiques des chercheurs. J’y ai fait allusion mais, avec l’arrivée de ChatGPT, le sujet est monté rapidement très haut dans les priorités des intervenants du monde de l’enseignement. (Quand on regarde la programmation des colloques de cette année en pédagogie, on constate que IA générative est vraiment sur toutes les lèvres.) Beaucoup d’intervenants aujourd’hui, notamment dans les bibliothèques ou les services d’aide à l’enseignement, travaillent à élaborer des formations, des guides, des cadres de référence sur la meilleure manière de préparer les jeunes professionnels au monde de l’IA et, principalement, de l’IA générative. 

Dans notre avis, on insiste pour que ces formations et ces outils visent également le développement de compétences liées au multilinguisme. Il faut que, dans leur parcours scolaire, collégial ou universitaire, les gens apprennent à reconnaître les forces et les faiblesses des technologies de génération de langage, ainsi qu’à connaître, des différentes technologies de la traduction, les manières les plus efficaces de les utiliser et les contextes dans lesquels on peut les utiliser. Cela signifie que les gens doivent être en mesure d’apprécier non seulement les limites de la machine, mais aussi leurs propres limites et leurs propres compétences en matière de contrôle de qualité, et ce, dans les différentes langues qu’ils maîtrisent. Je suis certain que c’est un thème qui sera abordé aujourd’hui. Je pense notamment aux présentations de monsieur Macklovitch et de madame Bowker.

Un deuxième axe que nous abordons dans l’avis est celui de la création ou de la consolidation de corpus scientifiques bilingues (ou multilingues) de qualité. L’enjeu est ici qu’il existe plusieurs domaines où le français et les autres langues ont été plus ou moins exclus, ce qui laisse peu de matière aux algorithmes pour s’entraîner. Parfois, on peut constituer un certain corpus, par exemple, en puisant dans les résumés de thèses ou de présentations dans les congrès, mais ça implique de travailler avec une matière éparpillée, de qualité inégale, et des terminologies qui ne sont pas toujours bien fixées. C’est ce qui arrive quand des chercheurs produisent en parallèle des traductions « maison » de termes spécialisés pour répondre à des besoins d’enseignement sans qu’il y ait d’harmonisation de la terminologie par un usage commun des mots.

Ce que l’on souhaiterait, c’est une stratégie qui permet d’enrichir les corpus bilingues et multilingues, en traduisant de manière ciblée et stratégique les textes les plus visibles et les plus influents. Je le souligne : il ne s’agit pas et il ne s’agira jamais de produire une traduction de qualité de toutes les publications scientifiques. Ça coûterait beaucoup trop cher et ça n’aurait aucune utilité parce que la plupart des publications scientifiques sont lues par très peu de personnes. L’objectif doit plutôt être d’encourager la production de corpus de qualité à partir des textes les plus influents, que ce soient des textes canoniques ou des textes utilisés dans l’enseignement, puis de s’assurer que nous avons accès à des algorithmes performants lorsque nous voulons traduire sur demande des textes de moindre portée.

Intimement liée à la question du renforcement du corpus, il y a la question de la terminologie. Dans les discussions avec les chercheurs, l’une des difficultés les plus souvent évoquées quant à l’utilisation du français en science est l’absence d’une terminologie française appropriée. Je me rappelle avoir moi-même trouvé que c’était un problème quand j’étais un jeune chercheur. Aujourd’hui, honnêtement, j’en suis moins certain. Quand quelqu’un me dit que son domaine bouge trop rapidement et que l’absence de terminologie l’empêche d’utiliser le français, je lui demande de me donner un exemple concret d’un terme récent dont il n’existerait pas d’équivalent français. Ce que je fais, c’est que je vais ensuite sur la Vitrine linguistique de l’OQLF, pour vérifier si c’est vrai qu’il n’existe pas de termes français équivalents. Souvent, je découvre qu’il existe une recommandation pertinente de l’OQLF qui date d’il y a dix, quinze ou vingt ans, mais que la personne n’a jamais pensé vérifier.

Cela ne signifie pas que le travail terminologique est terminé. Mais il semble y avoir un écart entre ce qui existe et ce que les chercheurs pensent qu’il existe. Comment combler cet écart? Comment s’assurer que les scientifiques connaissent la terminologie qui existe et que, à l’inverse, les terminologues sont au courant des besoins terminologiques émergents? Comment créer un cercle vertueux qui permet la normalisation ou l’harmonisation du vocabulaire spécialisé par l’usage? Nous aurons aujourd’hui une table ronde avec des personnes qui sont responsables de plusieurs de nos programmes de traduction et de terminologie, alors j’ai vraiment hâte de les entendre.

De mon côté, je dirai simplement qu’il faut d’abord prendre au sérieux l’idée selon laquelle les programmes d’études doivent réellement mener à l’apprentissage de la terminologie française propre aux matières enseignées. Ce n’est pas une idée saugrenue, c’est ce qu’exige la Charte de la langue française et c’est ce qu’exigent les politiques linguistiques des universités. Pour un professionnel qui évolue dans un monde multilingue, la capacité à aller chercher des validations terminologiques dans son domaine d’expertise, de savoir relever ou signaler d’éventuelles lacunes, doit faire partie des compétences de base à développer durant la formation universitaire. Il faut donc s’assurer que ces terminologies sont enseignées et que leur connaissance est validée dans le cadre des programmes. Ça me semble particulièrement vrai chez les étudiants des cycles supérieurs qui préparent leur mémoire ou leur thèse et qui, pour plusieurs d’entre eux, vont avoir à utiliser les deux langues dans leur vie professionnelle.

Les processus de normalisation terminologique et d’enrichissement des corpus sont essentiels pour préparer les diplômés à se joindre à une société où le français est la langue commune, mais ils sont également essentiels pour faire évoluer les outils technologiques eux-mêmes, que ce soient les grands moteurs de traduction commerciaux ou les moteurs spécialisés que l’on souhaite entraîner. Plus ces outils seront performants, plus il sera facile d’utiliser la langue que nous maîtrisons le mieux pour consulter la documentation technique ou scientifique, ou la rédiger. Le niveau de performance des outils est déjà très grand, mais il le deviendra encore davantage si l’on enrichit les corpus existants.

Bon, avoir des terminologies, des corpus, des outils de traduction performants, c’est bien, mais les spécialistes du domaine scientifique nous diront que les obstacles au multilinguisme en science ne sont pas linguistiques ou technologiques, mais bien de nature institutionnelle. Ces obstacles concernent, par exemple, les enjeux inhérents au monde de la publication savante : la propriété intellectuelle, le droit d’auteur, de même que la diffusion et la découvrabilité des contenus scientifiques dans d’autres langues que l’anglais. Comment réconcilier la publication multilingue avec les modèles d’affaires des grands éditeurs? C’est une question difficile, que nous n’aborderons sans doute que partiellement aujourd’hui. Personnellement, je suis assez optimiste, car ce qu’on peut appeler le « modèle traditionnel de la publication scientifique » est quand même confronté à des défis nombreux, qui amènent plusieurs personnes à vouloir le repenser. La « science ouverte », par exemple, semblait peut-être une vue de l’esprit il y a vingt ans, mais elle a fait depuis des progrès considérables. Les promoteurs du multilinguisme en science peuvent aujourd’hui s’en inspirer et, même, faire cause commune maintenant que, grâce aux technologies de la traduction, ils ont du vent dans les voiles.

D’autres obstacles de nature institutionnelle concernent plutôt les chercheuses et les chercheurs eux-mêmes. On le sait : certaines personnes embrassent et valorisent déjà le multilinguisme dans leurs pratiques scientifiques (notamment les chercheurs en sciences humaines et sociales, ou encore ceux qui sont impliqués dans des formes de « recherche-action »), mais ce n’est évidemment pas le cas de toutes. Comment les convaincre de la pertinence d’ajouter une part de multilinguisme dans leurs pratiques scientifiques? Comment les convaincre de la valeur ajoutée de produire ou de réviser une traduction de qualité de leurs trois ou quatre meilleurs articles ou du matériel pédagogique qu’ils utilisent de manière récurrente dans leur cours? Comment les convaincre de consacrer du temps à réfléchir à la terminologie française de leur discipline? Ou encore d’organiser des événements scientifiques multilingues en tirant profit des nouvelles technologies?

Quand j’étais plus jeune et que je travaillais à l’Université de Montréal, j’ai passé beaucoup de temps à travailler sur les politiques d’emploi et les politiques sociales. C’était l’époque où le chancelier Gerhard Schröder avait décidé de revoir de fond en comble les politiques du marché du travail en Allemagne. Tout le monde lui disait que ce serait impossible parce que la résistance au changement serait trop grande. Pour expliquer son approche, le chancelier avait alors mis de l’avant un slogan, qui était Fordern und Fördern. Essentiellement, l’objectif était d’« exiger davantage » des travailleurs, mais en contrepartie de « soutenir davantage » ceux qui perdaient leur emploi. En français, on pourrait aussi parler de l’importance de trouver le bon point d’équilibre entre l’usage de la carotte et l’usage du bâton.

Dans notre avis sur la traduction automatique, nous insistons sur l’importance de soutenir la mise en place d’une expertise à l’intérieur des universités, de manière à appuyer les étudiants et les chercheurs dans la recherche de la terminologie appropriée, dans l’utilisation des technologies, dans la préparation ou la postédition de publications savantes en français, ou encore dans l’organisation d’événements scientifiques multilingues. Nous proposons aussi de regrouper l’expertise disponible autour d’un pôle québécois qui pourrait développer des formations, contribuer à constituer et à enrichir des corpus multilingues, offrir une expertise juridique et faire le lien avec les initiatives à l’échelle internationale.

Évidemment, si les étudiants et les chercheurs ont à leur disposition des outils, et un soutien pour apprivoiser ce nouveau monde du multilinguisme scientifique, alors, en contrepartie, nous pourrons aussi rehausser nos attentes à leur endroit. Je pense notamment au fait d’exiger une bonne présence du français dans les événements scientifiques, ou encore la préparation de versions françaises de certaines publications ou du matériel pédagogique utilisé de façon récurrente. Nous terminerons la journée aujourd’hui avec une table ronde qui portera précisément sur ces questions d’ordre institutionnel et qui contribuera, j’en suis sûr, à faire avancer nos réflexions.

Je termine donc en vous remerciant de nouveau pour votre présence. Je suis certain que les discussions de la journée seront riches et qu’elles nous aideront à avancer encore davantage vers une science plus multilingue et plus inclusive.