DEFT'2007
Appel - Tâche - Corpus - Comités et calendrier - Résultats et publication - Programme et actes

Tâche     Description   Déroulement

Description de la tâche

La classification d'un corpus en classes pré-déterminées, et son corollaire le profilage de textes, est une problématique importante du domaine de la fouille de textes. Le but d'une classification est d'attribuer une classe à un objet textuel donné, en fonction d'un profil qui sera explicité ou non suivant la méthode de classification utilisée. Les applications sont variées et vont du filtrage de grands corpus pour faciliter la recherche d'information ou la veille scientifique et économique, à la classification par le genre de texte pour adapter les traitements linguistiques aux particularités d'un corpus.

La tâche que nous proposons vise le domaine applicatif de la prise de décision. Attribuer une classe à un texte, c'est aussi lui attribuer une valeur qui peut servir de critère dans un processus de décision. Et en effet, la classification d'un texte suivant l'opinion qu'il exprime a des implications notamment en étude de marchés. Certaines entreprises veulent désormais pouvoir analyser automatiquement si l'image que leur renvoie la presse est plutôt positive ou plutôt négative. Des centaines de produits sont évalués sur Internet par des professionnels ou des internautes sur des sites dédiés : quel jugement conclusif peut tirer de cette masse d'informations un consommateur, ou bien encore l'entreprise qui fabrique ce produit ? En dehors du marketing, une autre application possible concerne les articles d'une encyclopédie collaborative sur Internet comme Wikipédia : un article propose-t-il un jugement favorable ou défavorable, ou est-il plutôt neutre suivant en cela un principe fondateur de cette encyclopédie libre ?

Pour cette tâche, nous avons choisi des textes d'opinion venant de différents domaines :

Ces textes présentent la particularité d'être associés d'emblée à un jugement exprimé sous la forme d'une note ou d'un vote. Ce sont ces jugements qui serviront de référence lors de l'évaluation des résultats. A partir de ces jugements, nous avons défini pour chaque corpus un ensemble de classes d'opinion : La tâche des participants à DEFT'07 consistera à attribuer automatiquement une classe d'opinion à chaque texte - critique, commentaire, ou intervention - de chaque corpus.

Déroulement de la tâche      Description

Les équipes participant à DEFT'07 devront obligatoirement s'inscrire à l'aide du formulaire en ligne, et signer les accords de restriction d'usage des corpus.

Des corpus d'apprentissage seront fournis aux participants inscrits, à partir du 4 janvier 2007. Ces corpus sont composés de 60% des corpus d'origine. Ils contiennent la classe attribuée à chaque texte. Les participants auront environ deux mois pour mettre en place leurs méthodes de classification sur les corpus d'apprentissage. Seuls les corpus d'apprentissage fournis sont autorisés pour l'entraînement à la tâche.

Les 40% de corpus restants seront utilisés pour le test. Le test aura lieu sur une fenêtre de 15 jours, à partir de la mi-mars. A partir de la date qu'ils auront choisie dans cet intervalle, les participants auront trois jours pour appliquer, sur les corpus de test, les méthodes mises en oeuvre sur les corpus d'apprentissage.

A la fin de ces trois jours, les participants devront soumettre leurs résultats sous la forme d'un fichier (voir le calendrier et les mesures d'évaluation). Les fichiers de résultats devront respecter un format XML donné.


Webmestre : Michel Lastes