DEFT'08
▸ appel
▸ tâche
▸ comités et calendrier
▸ corpus
▸ inscription
▸ questions fréquentes/FAQ
▸ soumissions
▸ résultats et publication
▸ programme et actes

Corpus     Description   Format   Téléchargement

Description des corpus

Les corpus ont été constitués à partir de deux sources distinctes : Le Monde et la Wikipédia francophone. Pour chacun de ces corpus, nous avons identifié une petite dizaine de catégories communes (rubrique dans laquelle a paru un article du Monde ou catégorie sous laquelle a été classé un article de la Wikipédia) dont nous donnons ci-dessous des représentants de chaque corpus.

Catégorie « SPORTS »

Concerne tous les articles traitant du sport (rencontres, résultats, personnalités).

Exemples

Catégorie « INTERNATIONAL »

Concerne les articles traitant de sujets internationaux, de politique nationale (à l'exception de la politique française).

Exemples

Catégorie « ART »

Concerne les articles portant sur l'art et la culture.

Exemples

Catégorie « ÉCONOMIE »

Concerne les articles traitant d'économie et des entreprises.

Exemples

Catégorie « LITTÉRATURE »

Concerne les articles sur la publication des livres (critiques) et sur la littérature.

Exemples

Catégorie « POLITIQUE FRANÇAISE »

Concerne les articles relatifs à la politique française.

Exemples

Catégorie « SCIENCES »

Concerne les articles traitant de sujets scientifiques.

Exemples

Catégorie « SOCIÉTÉ »

Concerne les articles d'événements français non politiques et de sujets de société.

Exemples

Catégorie « TÉLÉVISION »

Concerne les articles sur la radio et la télévision (programmes, fonctionnement).

Exemples

Format des corpus      Description   Téléchargement

Les corpus sont au format XML dont la DTD est disponible ici (mise-à-jour : 31/01/08).
La liste des valeurs pour la catégorie est la suivante :
La liste des valeurs pour le genre est la suivante :

Exemples

Téléchargement des corpus      Description   Format

L'encodage des corpus a été modifié de manière à avoir un encodage uniforme ISO 8859-15. Les éventuelles fautes d'orthographes ou de ponctuation n'ont pas été corrigées.

Le login et le mot de passe nécessaires à l'accès aux corpus seront envoyés aux personnes qui se sont inscrites et qui ont signé et renvoyé le contrat.

Corpus d'apprentissage

Corpus de test

Scripts perl de calcul du F-score strict et du F-score pondéré


LIMSI-CNRS