Introduction
L'intérêt d'une conférence d'évaluation est de
permettre de confronter, sur un même corpus, des méthodes et logiciels
d'équipes différentes. Depuis 2005, l'atelier d'évaluation DEFT
propose de travailler sur des thématiques régulièrement renouvelées
relevant de la fouille de textes en langue française. Certaines
campagnes ont fait l'objet d'évaluations multilingues.
Pour en savoir plus : Grouin C, Forest D
(eds). Expérimentations et évaluations en fouille de textes : un
panorama des campagnes DEFT. Collection "Systèmes d'Information et
Organisations Documentaires" (S. Chaudiron,
dir). Hermes-Lavoisier. 2012. Notice, 248 pages. ISBN :
978-2-7462-3836-7. Ouvrage collectif présentant les différentes
campagnes DEFT accompagnées d'articles sur certaines méthodes
utilisées pendant ces campagnes. Onze chapitres répartis en quatre
parties : introduction, les campagnes en genres et thèmes, les
campagnes en fouille d'opinion, les campagnes diachroniques.
Éditions
- 2005 (Dourdan,
France, TALN
2005) : identification du locuteur d'un discours
politique parmi deux protagonistes différents (Jacques Chirac
vs. François Mitterrand).
- 2006 (Fribourg,
Suisse, SDN 2006) : segmentation thématique de
textes politiques.
- 2007 (Grenoble,
France, AFIA
2007) : détection de l'opinion exprimée dans un texte de
retranscription de débats parlementaires (projets de Loi relatifs à
l'énergie).
- 2008 (Avignon,
France, TALN 2008) : classification automatique
de documents en genres (journalistique vs. encyclopédiques) et
thèmes différents (art, économie, littérature, politique
internationale, politique nationale, problèmes de sociétés, sciences,
sports, télévision).
- 2009 (Paris, France) : fouille
d'opinion (objectif/subjectif) en corpus multilingues (journaux et
débats européens).
- 2010 (Montréal,
Canada, TALN 2010) :
- Variation diachronique (1800-1944) en corpus de presse
française (Le Journal des Débats, Le Journal de l'Empire, Le
Journal des Débats politiques et littéraires, La Croix, Le
Figaro), identification de la décennie de publication d'un
extrait d'article ;
- Variation diatopique en corpus de presse française (L'Est
Républicain, Le Monde) et québécoise (La Presse, Le
Devoir).
- 2011 (Montpellier,
France, TALN
2011) :
- Variations diachroniques (1800-1944) en corpus de presse
française (Le Journal des Débats, Le Journal de l'Empire, Le
Journal des Débats politiques et littéraires, La Croix, Le Figaro,
La Presse, Le Temps), identification de l'année de publication
d'un extrait d'article ;
- Appariements résumé/article scientifique de revue dans le
domaine des Sciences Humaines et Sociales (Humanités).
- 2012 (Grenoble,
France, TALN
2012) : identification automatique des mots-clés
indexant le contenu d'articles scientifiques ayant paru en revues de
Sciences Humaines et Sociales, avec l'aide de la terminologie des
mots-clés (piste 1), sans terminologie (piste 2).
- 2013 (Les Sables-d'Olonne,
France, TALN
2013) : identification du niveau de difficulté de
réalisation d'une recette, identification du type de plat préparé,
appariement d'une recette avec son titre, identification des
ingrédients d'une recette.
Actes
- 2005 : intégrale (3,2 Mo).
- 2006 : intégrale (2,0 Mo).
- 2007 : intégrale (2,6
Mo), articles.
- 2008 : intégrale (1,6
Mo), articles.
- 2009 : intégrale (2,3
Mo), articles.
- 2010 : intégrale (1,7
Mo), articles.
- 2011 : intégrale (3,2
Mo), articles.
- 2012 : intégrale (1,5 Mo), articles.
Corpus
Les corpus intégrant des articles de journaux ne sont pas
disponibles en dehors du défi, sauf si un package global existe
(édition 2008 par exemple).
- Librement téléchargeables :
- 2005 : corpus de discours politiques, allocutions
de J. Chirac bruitées par des segments d'allocutions de
F. Mitterrand, apprentissage
et test [12,7 Mo]
- 2006 : corpus de discours politiques, discours
prononcés par trois Présidents de la République (V. Giscard
d'Estaing, F. Mitterrand,
J. Chirac), apprentissage
et test [24,4 Mo]
- 2006 : corpus de textes juridiques, articles de
lois de l'Union
Européenne, apprentissage
et test [25,3 Mo]
- 2007 : corpus de débats parlementaires, environ 28
000 interventions anonymisées (Hommes et partis politiques) sur des
projets de lois relatifs à l'énergie. La valeur de vote (0 =
contre, 1 = pour) est indiquée avec chaque
document, apprentissage
[7,4 Mo]
et test
[4,6 Mo]
- 2009 : corpus multilingue de débats parlementaires
européens, environ 19 000 interventions (texte et parti politique
de l'intervenant) issues des compte-rendus de débats du Parlement
européen entre 1999 et 2004. Chaque corpus comprend un fichier
d'interventions par langue (français, anglais, italien). Les corpus
ne sont pas alignés. Toutes les interventions d'une langue sont
également présentes dans les autres langues, réparties dans un
ordre différent entre corpus d'entraînement et corpus de
test, apprentissage
[41 Mo],
test
[27 Mo] et référence [107 ko].
- Téléchargeables après signature d'un accord de confidentialité :
- 2007 : corpus de critiques de films, livres et
spectacles, site de
avoir-alire.com, apprentissage
et test [3,1 Mo]
- 2007 : corpus de critiques de jeux vidéos, site de
jeuxvideo.com, apprentissage et test [10,7 Mo]
- Disponibles à l'achat auprès d'ELDA :
- 2008 : package complet (corpus d'apprentissage, de
test et de référence, scripts d'évaluation). Contacter Valérie
Mapelli
(ELDA) : coordonnées.