ancien site de l'UFR de Linguistique (jusqu'à 2020-2021)

Recueil et structuration de corpus

Deuxième partie S2/S4

Enseignants 2021-2022

Achille Falaise et Alexandre Roulois

Objectifs et contenu principal

De la détection d'encodage à la normalisation de données en passant par l'extraction de contenus Web, les étudiants aborderont au cours de ce module les étapes préalables à la constitution d'un corpus textuel en vue de son exploitation par les outils état de l'art. Ils tireront partie de méthodes de nettoyage et de structuration automatisées (python, perl) pour produire des documents dans des formats variés (TXT, CSV, XML/TEI).

Bibliographie

À venir…

image/svg+xmlancien site de l'UFR de Linguistique (jusqu'à 2020-2021)

Outils pour utilisateurs

Outils du site

Panneau latéral

Recueil et structuration de corpus

Enseignants 2021-2022

Objectifs et contenu principal

Bibliographie

Outils de la page

ancien site de l'UFR de Linguistique (jusqu'à 2020-2021)