Corpus : outils d'analyse automatique

Deuxième partie S2/S4

Pré-requis

Les étudiants souhaitant suivre ce bloc doivent obligatoirement avoir suivi le bloc “Base de programmation”

Enseignants 2021-2022

Achille Falaise et Alexandre Roulois

Objectifs et contenu principal

Ce bloc concerne l'analyse automatique de textes: tokenisation, lemmatisation, identification des parties du discours (tagging) et des relations syntaxiques (parsing). On abordera les problématiques liées à l'annotation (choix de tokenisation, de lemmes, d'étiquettes…), l'utilisation de ressources existantes (modèles de langue) pour l'analyse automatique de texte, l'évaluation de l'analyse obtenue, et l'adaptation des ressources en fonction du type de texte.

Bibliographie