DEFT'09
     Appel   Tâche   Comités et calendrier   Corpus
Résultats et publication   Programme et actes
 
  [Aide]

Corpus     Description   Format   Téléchargement

Description des corpus

Les corpus ont été constitués à partir de deux sources distinctes : les débats du Parlement européen et un ensemble d'articles issus des journaux Le Monde (France), The Financial Times (Royaume-Uni) et Il Sole 24 Ore (Italie).

Corpus « Parlement »

Ce corpus comprend 32 289 interventions de parlementaires, tenues au Parlement européen entre 1999 et 2004. Seules les interventions des parlementaires affiliés à l'un des cinq partis suivants ont été extraites :

Exemples

Corpus « Journal »

L'attribution des valeurs « objective » et « subjective » aux articles a été réalisée de manière différente selon les journaux :

Exemples « Le Monde »

Exemples « The Financial Times »

Exemples « Il Sole 24 Ore »

Format des corpus      Description   Téléchargement

Les corpus sont au format XML dont la DTD est disponible ici (mise-à-jour : 04/12/08).

Les listes de valeurs pour les propriétés d'articles (tâche 1) et partis politiques (tâche 3) sont les suivantes :

Pour les tâches 1 et 3 nous avons des fichiers de référence disponibles, des processus d'apprentissage peuvent donc être mis en place. En revanche, pour la tâche 2, nous n'avons pas de fichiers de référence.

Exemples

Téléchargement des corpus      Description   Format

L'encodage des corpus a été modifié de manière à avoir un encodage uniforme UTF-8. Les éventuelles fautes d'orthographes ou de ponctuation n'ont pas été corrigées.

Le login et le mot de passe nécessaires à l'accès aux corpus seront envoyés aux personnes qui se seront inscrites et qui auront signé et renvoyé le contrat.

Corpus d'apprentissage

Mise-à-jour : mercredi 21 janvier 2009.

Corpus de test

Mise-à-jour : mercredi 18 mars 2009.

Données de référence

Scripts perl de calcul du F-score strict : tâches 1 et 3

Mise-à-jour : vendredi 24 avril 2009.