rappels: notion de modélisation en linguistique
les données en linguistique: données attestées / données forgées, avantages et inconvénients
les sources de variation des données
contenu et constitution de corpus (minimalement)
méta-données : méta-données extra-linguistiques et annotations linguistiques
formats de corpus: formats ad-hoc , format XML