Outils pour utilisateurs

Outils du site


cours:49ge06lf

49GE06LF - Linguistique de corpus

Contenu

  • rappels: notion de modélisation en linguistique
  • les données en linguistique: données attestées / données forgées, avantages et inconvénients
  • les sources de variation des données
  • contenu et constitution de corpus (minimalement)
  • méta-données : méta-données extra-linguistiques et annotations linguistiques
  • formats de corpus: formats ad-hoc , format XML

TPs sur machine:

  • concordancier antconc, recherches d'expressions régulières
  • interrogation de la base FRANTEXT, intégral / catégorisé
  • interrogation d'un corpus arboré (outil TREGEX)

Compétences théoriques visées:

  • avantages et inconvénients de l'utilisation de données attestées versus données forgées
  • les caractéristiques importantes d'un corpus
  • les différents types de méta-données et d'annotations linguistiques de corpus

Compétences techniques visées:

  • utilisation de concordanciers, recherche par expressions régulières, interrogation de FRANTEXT, recherche en corpus arboré

Informations historiques

cours/49ge06lf.txt · Dernière modification: 2018/09/03 07:33 par mcandito