Description des corpus
Corpus de critiques de films, livres, spectacles et bandes dessinées
Ce corpus comporte environ 3 000 critiques et les notes qui leur sont associées.
En effet, beaucoup d'organes de diffusion de critiques de films ou de livres attribuent, en
plus du commentaire, une note au film ou au livre sous une forme icônique. Nous
avons retenu une échelle de 3 niveaux de notes, qui donne 3 classes
bien discriminées : la classe 0 (
mauvais), la classe 1 (
moyen), et la
classe 2 (
bien).
Exemples
-
Classe : 0
-
Critique : ... Mais cette esbroufe formelle ne
parvient pas à masquer l'indigence gravissime d'un scénario ... dont
l'humour vaseux et les fausses pistes éculées agacent et ennuient...
-
Classe : 1
-
Critique : ... Malgré tout, ce roman manque singulièrement
d'éclat. Certes, il est jalonné de détails attachants de la vie
quotidienne et son écriture est fluide, comme une évidence. Mais la
simplicité a ses limites ...
-
Classe : 2
-
Critique : ... Une jolie comédie qui s'interroge sur les
amours de jeunesse, les rêves d'antan et les responsabilités
d'aujourd'hui... Une comédie au thème très classique mais menée avec
beaucoup de finesse ...
Corpus de tests de jeux vidéo
Le corpus de tests de jeux vidéo comprend environ 4 000 critiques. Chaque critique comporte une analyse des différents
aspects du jeu - graphisme, jouabilité, durée, son, scénario - et une
synthèse globale du jugement. Comme pour le corpus précédent, nous
avons retenu une échelle de 3 niveaux de notes, qui donne les 3 classes
0 (
mauvais), 1 (
moyen), et
2 (
bien).
Exemples
-
Classe : 0
-
Critique : ... Vous incarnez un guerrier tout ce qu'il
y a de moins original, un barbare au cerveau visiblement réduit qui
poss&eagrave;de un masque de justicier à la Zorro, ce qui lui donne un look de
catcheur d'assez mauvais goût. Ce n'est pas pour rien que cet
accessoire s'appelle le masque de la honte dans le jeu ! ...
Résultat, on s'ennuie vite aux commandes de ce personnage qui
se retrouve au coeur d'une histoire compl&eagrave;tement anecdotique, qui
n'est là que pour servir de prétexte à une succession de combats
toujours identiques ...
-
Classe : 1
-
Critique : ... En dépit de ces deux gros défauts,
Amenophis se laisse suivre de bout en bout sans trop de
mal. L'histoire s'enchaîne plutôt bien avec plusieurs cinématiques qui
se déclenchent aux moments clés. Les rebondissements sont nombreux
(mais prévisibles) et les énigmes, essentiellement basées sur
l'observation et la récupération d'objets, ne sont pas insurmontables,
bien au contraire ...
-
Classe : 2
-
Critique : ... Un titre à découvrir absolument par
les fans de jeux de rôle. Morrowind est un jeu tout simplement
passionnant, d'une richesse incroyable et doté d'une longévité
hors-norme. Son principe devrait séduire de nombreux joueurs qui
découvriront à cette occasion une expérience de jeu unique ...
Corpus de relectures d'articles
Ce corpus comporte environ 1 000 relectures d'articles qui
alimentent les décisions de comités de programme de
conférences et renvoient des conseils et critiques aux auteurs. Nous
avons retenu une échelle de 3 niveaux de jugement. La classe 0
est attribuée aux relectures qui proposent un rejet de l'article, la
classe 1 est attribuée aux relectures qui proposent une acceptation sous condition de
modifications majeures ou en séance de posters, et la classe 2
regroupe les acceptations d'article avec au plus des modifications mineures.
Exemples
-
Classe : 0
-
Relecture : ...
Hors thème. Il s'agit d'une étude de phonétique acoustique. Cet
article pourrait être soumis à une conférence de phonétique ...
-
Classe : 1
-
Relecture : ...
Cet article est clair et présente des validations
expérimentales sur des corpus réels. Cependant, il
n'apporte pas grand-chose de neuf par rapport à la littérature
existente - l'originalité et l'aspect novateur sont donc tres
faibles.
-
Classe : 2
-
Relecture : ...
Il s'agit d'un excellent papier tres bien ecrit et qui apporte
beaucoup d'informations interessantes. Les auteurs motivent et
proposent un travail d'ingenierie linguistique de haut vol: ils tirent
parti de techniques connues en linguistique computationelle pour
proposer un systeme finalise effectivement implemente et evalue.
Corpus de débats parlementaires
Le corpus des débats parlementaires se compose d'environ 28 000 interventions
de députés portant sur le vote de lois en examen à l'Assemblée
Nationale. A chaque intervention est associé le résultat
pour (classe 1) ou
contre (classe 0) du vote de l'intervenant sur la loi discutée.
Exemples
-
Classe : 0
-
Intervention : ...
L'accès à l'énergie dans des conditions normales
et au juste prix ne doit pas devenir le privilège de quelques-uns.
Car la privatisation peut être du vol lorsque des actionnaires privés
accèdent à vil prix à un patrimoine national comme le réseau de
transport du gaz. ...
-
Classe : 1
-
Intervention : ...
Nous avons passé des dizaines d'heures en juillet
et en août, sous l'autorité du président <hommePolitique />, à analyser ce
projet. Mon sentiment est qu'il répond bel et bien à l'évolution du
monde : en ce début de si&eagrave;cle, il n'est pas anormal de chercher des
solutions nouvelles pour des temps nouveaux. ...
Les corpus sont au format XML dont la DTD est disponible
ici.
Exemples
-
Le fichier d'apprentissage :
-
Ce fichier comporte, pour chaque document, le texte de la critique et
la classe de jugement dans laquelle il se situe (c'est-à-dire la note qui lui a
été attribuée). Un
exemple est disponible ici.
-
Le fichier de test :
-
Ce fichier ne comporte, pour chaque document, que le texte de la critique. Un
exemple est disponible ici. La note
devra être attribuée automatiquement et fournie dans le fichier des résultats.
-
Le fichier des résultats :
-
Ce fichier ne comporte, pour chaque document, que la
classe qui aura été automatiquement attribuée au texte par l'équipe
participante, ainsi que, éventuellement, son score
de confiance. Un exemple est disponible ici.
L'encodage des corpus a été modifié de manière à avoir un encodage
uniforme ISO 8859-1. Les éventuelles fautes d'orthographes ou de
ponctuation n'ont pas été corrigées.
Dans le corpus des relectures d'articles de conférences, nous avons
anonymisé les références à des personnes, publications, conférences, projets,
corpus, logiciels et entreprises, avec quelques exceptions telles que
WordNet ou Eurowordnet ou encore algorithme de Viterbi.
Dans le corpus des débats parlementaires, nous avons anonymisé les
noms des personnalités politiques et des partis politiques.
Le texte de chaque document (critique, commentaire, ou intervention) peut prendre diverses formes : il peut consister en une seule ligne, ou prendre plusieurs lignes avec parfois des en-têtes.
Une phrase peut être en double dans le même document des relectures si elle a été adressée une fois aux relecteurs et une autre fois aux auteurs.
- Librement téléchargeables : corpus de débats parlementaires, environ 28
000 interventions anonymisées (Hommes et partis politiques) sur des
projets de lois relatifs à l'énergie. La valeur de vote (0 = contre, 1 = pour) est indiquée avec chaque
document, apprentissage
[7,4 Mo],
test
[4,6 Mo],
reference
[1,3 Mo]
- Téléchargeables après signature d'un accord de confidentialité : (privilégiez un retour par mail à pap @ limsi.fr)
- Le corpus de relectures scientifiques n'est pas disponible en dehors du challenge