===== 49GE06LF - Linguistique de corpus ===== ==== Contenu ==== * rappels: notion de modélisation en linguistique * les données en linguistique: données attestées / données forgées, avantages et inconvénients * les sources de variation des données * contenu et constitution de corpus (minimalement) * méta-données : méta-données extra-linguistiques et annotations linguistiques * formats de corpus: formats ad-hoc , format XML === TPs sur machine: === * concordancier antconc, recherches d'expressions régulières * interrogation de la base FRANTEXT, intégral / catégorisé * interrogation d'un corpus arboré (outil TREGEX) === Compétences théoriques visées: === * avantages et inconvénients de l'utilisation de données attestées versus données forgées * les caractéristiques importantes d'un corpus * les différents types de méta-données et d'annotations linguistiques de corpus === Compétences techniques visées: === * utilisation de concordanciers, recherche par expressions régulières, interrogation de FRANTEXT, recherche en corpus arboré ==== Informations historiques ====