Deuxième partie S2/S4
Les étudiants souhaitant suivre ce bloc doivent obligatoirement avoir suivi le bloc “Base de programmation”
Achille Falaise et Alexandre Roulois
Ce bloc concerne l'analyse automatique de textes: tokenisation, lemmatisation, identification des parties du discours (tagging) et des relations syntaxiques (parsing). On abordera les problématiques liées à l'annotation (choix de tokenisation, de lemmes, d'étiquettes…), l'utilisation de ressources existantes (modèles de langue) pour l'analyse automatique de texte, l'évaluation de l'analyse obtenue, et l'adaptation des ressources en fonction du type de texte.