Traitement automatique du langage naturel – Conférences de rentrée informatique ENS Paris-Saclay

Patrick Paroubek, LISN, université Paris-Saclay

Résumé. Ces dernières années l’Intelligence Artificielle a regagné le devant du paysage scientifique et médiatique, d’abord avec les progrès réalisés en Apprentissage Automatique avec les approches neuronales profondes, popularisées initialement par le biais de travaux en Traitement d’Images et, depuis le printemps dernier, avec les performances remarquables de la dernière version de l’agent conversationnel ChatGPT de la société OpenAI. Les performances de ce dernier ont mis l’attention sur le domaine du Traitement Automatique du Langage (TAL) et ont suscité un questionnement d’ampleur sociétale dans certaines branches d’activités, qui jusqu’ici semblaient inaccessibles aux machines. Ce cours d’introduction sera l’occasion de survoler rapidement l’histoire du domaine du Traitement Automatique des Langues, qui remonte aux origines de l’informatique, avec les premiers travaux portant sur la Traduction Automatique en 1948 en Grande-Bretagne et aux États-Unis.

Nous verrons comment les questions abordées, les théories, les pratiques et les capacités des algorithmes ont évolué jusqu’à nos jours et quels ont été les changement de paradigmes marquants, avec comme illustrations des démonstrations de quelques réalisations en termes de ressources linguistiques ou de logiciels qui sont encore utilisés actuellement, permettant ainsi de se familiariser avec les spécificité du TAL, domaine interdisciplinaire par nature. Nous verrons la succession de changement de focus des problématiques, passant de la traduction automatique, à l’analyse syntaxique, à la reconnaissance de parole, au dialogue orienté tâche, puis à la compréhension et à la génération et finalement aux agents conversationnels. Ces transitions sont allées de pair avec une évolution de la nature des modèles sous-jacents, passant initialement des modèles de calcul symboliques, aux modèles statistiques, puis au modèles neuronaux profonds, avec en parallèle une place de plus en plus importante accordée aux bases de données linguistiques (corpus) et à l’évaluation. Cette dernière a permis de faciliter l’identification de nouvelles pistes de recherche ainsi que les transferts de la recherche vers l’industrie.

Si les progrès sont de plus en plus rapides, le domaine échappe toujours à une formalisation complète à la fois de par son ancrage dans le langage (un consensus arbitraire historique émergeant naturellement au sein d’un groupe de personnes) et d’autre part à l’incapacité des machines à maîtriser un ensemble de connaissances sur le monde que l’on regroupe souvent sous le terme de sens commun. Deux
aspects qui touchent à des questions fondamentales pour le domaine de l’Intelligence Artificielle: l’intelligence et la conscience.