DEFT'2007
Appel - Tâche - Corpus - Comités et calendrier - Résultats et publication - Programme et actes

Corpus     Description   Format   Téléchargement

Description des corpus

Corpus de critiques de films, livres, spectacles et bandes dessinées

Ce corpus comporte environ 3 000 critiques et les notes qui leur sont associées. En effet, beaucoup d'organes de diffusion de critiques de films ou de livres attribuent, en plus du commentaire, une note au film ou au livre sous une forme icônique. Nous avons retenu une échelle de 3 niveaux de notes, qui donne 3 classes bien discriminées : la classe 0 (mauvais), la classe 1 (moyen), et la classe 2 (bien).

Exemples

Corpus de tests de jeux vidéo

Le corpus de tests de jeux vidéo comprend environ 4 000 critiques. Chaque critique comporte une analyse des différents aspects du jeu - graphisme, jouabilité, durée, son, scénario - et une synthèse globale du jugement. Comme pour le corpus précédent, nous avons retenu une échelle de 3 niveaux de notes, qui donne les 3 classes 0 (mauvais), 1 (moyen), et 2 (bien).

Exemples

Corpus de relectures d'articles

Ce corpus comporte environ 1 000 relectures d'articles qui alimentent les décisions de comités de programme de conférences et renvoient des conseils et critiques aux auteurs. Nous avons retenu une échelle de 3 niveaux de jugement. La classe 0 est attribuée aux relectures qui proposent un rejet de l'article, la classe 1 est attribuée aux relectures qui proposent une acceptation sous condition de modifications majeures ou en séance de posters, et la classe 2 regroupe les acceptations d'article avec au plus des modifications mineures.

Exemples

Corpus de débats parlementaires

Le corpus des débats parlementaires se compose d'environ 28 000 interventions de députés portant sur le vote de lois en examen à l'Assemblée Nationale. A chaque intervention est associé le résultat pour (classe 1) ou contre (classe 0) du vote de l'intervenant sur la loi discutée.

Exemples

Format des corpus      Description   Téléchargement

Les corpus sont au format XML dont la DTD est disponible ici.

Exemples

Téléchargement des corpus      Description   Format

L'encodage des corpus a été modifié de manière à avoir un encodage uniforme ISO 8859-1. Les éventuelles fautes d'orthographes ou de ponctuation n'ont pas été corrigées.
Dans le corpus des relectures d'articles de conférences, nous avons anonymisé les références à des personnes, publications, conférences, projets, corpus, logiciels et entreprises, avec quelques exceptions telles que WordNet ou Eurowordnet ou encore algorithme de Viterbi. Dans le corpus des débats parlementaires, nous avons anonymisé les noms des personnalités politiques et des partis politiques.
Le texte de chaque document (critique, commentaire, ou intervention) peut prendre diverses formes : il peut consister en une seule ligne, ou prendre plusieurs lignes avec parfois des en-têtes.
Une phrase peut être en double dans le même document des relectures si elle a été adressée une fois aux relecteurs et une autre fois aux auteurs.


Webmestre : Michel Lastes