Marcel Cori, Le traitement automatique des langues en question. Des machines qui comprennent le français ?
Marcel Cori, Le traitement automatique des langues en question. Des machines qui comprennent le français ?, Paris, Cassini, 2021, 248 p.
Texte intégral
1Dans cet ouvrage de synthèse, Marcel Cori retrace l’histoire du traitement automatique des langues (TAL) et en présente les enjeux et les fondements. Organisé en 7 chapitres, l’ouvrage, qui s’adresse à un public universitaire de non-spécialistes, définit d’abord les concepts manipulés (TAL, TAL théorique et robuste) pour arriver à l’examen des liens tissés par le TAL avec d’autres disciplines linguistiques et non linguistiques. L’auteur achève son propos en envisageant la question actuelle de la linguistique de corpus.
2Dès le premier chapitre, l’auteur rappelle les deux caractéristiques principales du TAL qui en constituent fondamentalement les limites : (i) même s’ils peuvent apporter une aide fort appréciable, les outils du TAL ne sont pas parfaits et (ii) ils ne le seront jamais dans la mesure où il n’y a pas de consensus pour définir ce que serait « un outil parfait » (p. 13). Il examine ensuite rapidement les différentes catégories d’outils construits par le TAL et les méthodes mises en œuvre pour ce faire (chap. 2). S’appuyant sur ses choix terminologiques antérieurs, M. Cori expose les problèmes que le TAL théorique doit résoudre pour construire l’analyse des données langagières en élaborant des chaines de traitement (segmentation, analyse morpho-syntaxique, constitution d’un lexique). La présentation des processus logiques sous-tendant la démarche est claire et illustrée. Dans le TAL robuste (chap. 3), l’auteur s’intéresse tout particulièrement aux méthodes stochastiques, « des méthodes probabilistes fondées sur des calculs statistiques effectués à partir de corpus » (p. 73). Il propose des comparaisons éclairantes pour comprendre les limites de ces méthodes dans le cas où l’on augmente trop la similarité, ce qui induit alors une perte de signification statistique (plus le nombre d’indices observés augmente, plus on perd la possibilité de trouver un échantillon significatif).
3Comme l’indique le sous-titre de l’ouvrage, M. Cori s’interroge sur ce que signifient comprendre et compréhension dans le cas des machines. Il souligne la similitude entre les méthodes stochastiques et les comportements humains : par exemple, pour élaborer une réponse qu’ils ne connaissent pas, les êtres humains « essayent d’en donner une au hasard, en s’appuyant sur les réminiscences de leur mémoire. Et […] neuf fois sur dix ils se trompent. La fois sur dix où ils tombent juste, nul ne dirait qu’ils ont compris quoi que ce soit » (p. 84). La mémoire des machines étant beaucoup plus puissante que celle des êtres humains, la probabilité d’une réponse juste augmente considérablement, mais cela ne signifie toujours pas que les machines comprennent pourquoi c’est une réponse juste.
4Le lecteur plonge au cœur de l’histoire du TAL que M. Cori décrit comme une « difficile affirmation » (chap. 4). Il montre, en effet, comment l’évolution dans les dénominations (traduction automatique, Computational Linguistics, Natural Language Processing, deep learning, etc.) rend compte des tensions qui parcourent cette discipline depuis la fin de la Seconde Guerre mondiale, aux États‑Unis et en Europe. La présentation des principaux résultats de recherche, mais aussi de l’ancrage institutionnel dans le paysage universitaire français, permettent de comprendre pourquoi la place du TAL est « mouvante » (p. 103). Pour l’auteur, le TAL ne peut pas être considéré comme une science : « Le TAL ne développe pas des théories sur les objets du monde réel, mais construit des instruments destinés à agir sur le monde. » (p. 114) Le terme « ingénierie » lui parait alors plus adéquat.
5Enfin, la comparaison des liens entre TAL et linguistique de corpus (chap. 7) permet à l’auteur de se positionner clairement sur ce qu’il refuse de considérer comme une nouvelle discipline. Il reprend méthodiquement les arguments des tenants de la linguistique de corpus qui l’ont promue en déconstruisant l’approche chomskienne des données par le rejet des notions d’acceptabilité et de grammaticalité, des exemples forgés, de la distinction entre compétence et performance. Il reconnait que ces « arguments en faveur de la linguistique de corpus ont le mérite de toucher des points sensibles de la recherche en linguistique » (p. 187). Néanmoins, il s’efforce de montrer que « le corpus ne résout pas tout » : la constitution d’un corpus repose aussi en partie sur l’intuition, car le linguiste fait des choix et opère un traitement sur les données en amont (p. ex., la correction des coquilles ou des lapsus). Son verdict est sans appel : « […] choisir les données à considérer, les mettre en forme, les ramener à la dimension qui doit être étudiée, émettre un jugement. En ce sens, il n’y a pas de linguistique de corpus. » (p. 198) Sans partager cette conclusion, nous pouvons reconnaitre à M. Cori le mérite d’interroger ce qu’est une discipline scientifique : doit‑elle avant tout posséder une vertu explicative comme la linguistique formelle ? Doit‑elle posséder une fonction heuristique comme la linguistique de corpus en se fondant sur l’observation d’un maximum de données, en risquant de se perdre dans la complexité du réel ?
6Pour conclure, nous recommandons la lecture de cet ouvrage très pédagogique écrit par un spécialiste français ayant consacré au TAL toute sa carrière universitaire. C’est ce parcours qui lui permet de répondre à la question posée dans le titre, que même si les machines ne comprennent rien à notre langue, elles peuvent nous rendre service et, surtout, que « le TAL a fait progresser la communauté scientifique dans sa compréhension de ce qu’est le langage, dans sa compréhension de ce qu’est comprendre » (p. 204).
Pour citer cet article
Référence électronique
Julie Sorba, « Marcel Cori, Le traitement automatique des langues en question. Des machines qui comprennent le français ? », Lidil [En ligne], 66 | 2022, mis en ligne le 31 octobre 2022, consulté le 06 décembre 2024. URL : http://0-journals-openedition-org.catalogue.libraries.london.ac.uk/lidil/11395 ; DOI : https://0-doi-org.catalogue.libraries.london.ac.uk/10.4000/lidil.11395
Haut de pageDroits d’auteur
Le texte et les autres éléments (illustrations, fichiers annexes importés), sont « Tous droits réservés », sauf mention contraire.
Haut de page