DEFT'08
▸ appel
▸ tâche
▸ comités et calendrier
▸ corpus
▸ inscription
▸ questions fréquentes/FAQ
▸ soumissions
▸ résultats et publication
▸ programme et actes

Résultats      Soumission   Evaluation   Publication   Présentation

Soumission

Les résultats des participants devront être écrits dans un fichier résultat respectant un format XML donné. Le fichier résultat doit regrouper les résultats des 2 corpus de test donnés.

Les participants pourront envoyer jusqu'à trois fichiers résultats différents.

Les participants auront 3 jours, à partir du lundi 17 mars, sur une fenêtre de 2 semaines, pour mettre en oeuvre leurs algorithmes sur les corpus de test. Chaque équipe participante fixe elle-même le premier jour du test, elle devra renvoyer ses résultats le troisième jour (à minuit au plus tard) grâce au formulaire de soumission. Le samedi et le dimanche entrent dans le décompte de ces jours : si une équipe participante choisit un vendredi comme jour de début de test, elle pourra accéder aux corpus de test le vendredi dès 9h et elle devra envoyer ses résultats au plus tard le dimanche soir à minuit. Le dernier jour de soumission des résultats est le vendredi 28 mars.

Chaque équipe participante devra informer le Comité d'organisation, avant le 15 mars, du jour qu'elle aura choisi comme premier jour de test.

La solution (le genre et la catégorie de chaque document de chaque corpus) sera diffusée aux participants par les organisateurs le lundi 31 mars 2008.

Contenu des fichiers résultats

Pour chaque document, le fichier résultat doit comporter au moins une catégorie (la catégorie automatiquement attribuée au document par le système mis en place par l'équipe participante), et éventuellement un indice de confiance dans cette catégorie. L'indice de confiance exprime la probabilité accordée par le système à une catégorie qu'il attribue à un document. Si une seule catégorie est attribuée au document sans être accompagnée d'un indice de confiance, par défaut l'indice de confiance sera égal à 1.

Pour la tâche 1, le fichier résultat doit aussi comporter le genre automatiquement attribué au document par le système mis en place par l'équipe participante. Pour le genre, l'indice de confiance ne doit pas être exprimé.

Exemple :

<EVALUATION>
<EVAL_CAT nombre="1">
<CAT valeur="ECO" />
</EVAL_CAT>
<EVAL_GENRE nombre="1">
<GENRE valeur="W" />
</EVAL_GENRE>
</EVALUATION>
est équivalent à : <EVALUATION>
<EVAL_CAT nombre="1">
<CAT valeur="ECO" confiance="1.00" />
</EVAL_CAT>
<EVAL_GENRE nombre="1">
<GENRE valeur="W" />
</EVAL_GENRE>
</EVALUATION>

Si plusieurs catégories sont attribuées au même document, ou si une seule catégorie est attribuée à un document avec un indice de confiance inférieur à 1, alors les indices de confiance des catégories sans indice, ou des catégories possibles non mentionnées, seront calculées de manière à ce que la somme des indices de confiance de toutes les catégories possibles pour ce document soit égale à 1.

Exemples :

<EVALUATION>
<EVAL_CAT nombre="1">
<CAT valeur="ECO" confiance="0.70" />
</EVAL_CAT>
</EVALUATION>
est équivalent à : <EVALUATION>
<EVAL_CAT nombre="4">
<CAT valeur="ECO" confiance="0.70" />
<CAT valeur="ART" confiance="0.10" />
<CAT valeur="SPO" confiance="0.10" />
<CAT valeur="TEL" confiance="0.10" />
</EVAL_CAT>
</EVALUATION>
 
<EVALUATION>
<EVAL_CAT nombre="2">
<CAT valeur="ECO" confiance="0.70" />
<CAT valeur="TEL" confiance="0.30" />
</EVAL_CAT>
</EVALUATION>
est équivalent à : <EVALUATION>
<EVAL_CAT nombre="4">
<CAT valeur="ECO" confiance="0.70" />
<CAT valeur="ART" confiance="0.00" />
<CAT valeur="SPO" confiance="0.00" />
<CAT valeur="TEL" confiance="0.30" />
</EVAL_CAT>
</EVALUATION>

Un script de vérification du format est disponible ici.

Nom des fichiers résultats

Le nom des fichiers résultats devra avoir le format suivant :

equipe_numeroEquipe_execution_numeroExecution.xml

Exemple :

equipe_12_execution_1.xml

Evaluation      Soumission   Publication   Présentation

Définition du F-score utilisé pour le classement final

Chaque fichier résultat sera évalué en calculant le F-score pour chacun des corpus, pour la catégorie ou le genre, avec $\beta = 1$.


$\displaystyle F_{score}(\beta) = \frac{(\beta^{2}+1)\times Pr\acute{e}cision \times Rappel}{\beta^{2}\times Pr\acute{e}cision + Rappel}$                (1)

Lorsque le F-score est utilisé pour évaluer la performance sur chacune des n classes d'une classification, les moyennes globales de la précision et du rappel sur l'ensemble des classes peuvent être évaluées par la macro-moyenne qui calcule d'abord la précision et le rappel sur chaque classe i , puis en fait la moyenne sur les n classes. Chaque classe, qu'elle soit de grande ou de petite taille, compte alors à égalité dans le calcul de la précision et du rappel.


                         (2)

Etant donné pour chaque classe i :

                (3)

                (4)


Un document est attribué à la classe i si :

Dans le calcul de ce F-score, l'indice de confiance n'est pris en compte que pour sélectionner la classe (catégorie) attribuée à un document.

F-score pondéré par l'indice de confiance

Un système de classification automatique peut attribuer à un document une distribution de probabilité sur les différentes classes au lieu de lui attribuer une seule classe. L'indice de confiance est cette probabilité pour un document d'appartenir à une catégorie donnée.

Le F-score pondéré par l'indice de confiance sera utilisé à titre indicatif pour des comparaisons complémentaires entre les méthodes mises en place par les équipes.

Dans le F-score pondéré, la précision et le rappel pour chaque classe sont pondérés par l'indice de confiance. Ce qui donne :

                (3bis)

                (4bis)

avec :
NbreAttribuéCorrecti :
nombre de documents attribuéCorrecti , c'est-à-dire appartenant effectivement à la classe i et auxquels le système a attribué un indice de confiance non nul pour cette classe.
NbreAttribuéi :
nombre de documents attribuéi auxquels le système a attribué un indice de confiance non nul pour la classe i.

Le F-score pondéré est ensuite calculé à l'aide des formules (1) et (2), ci-dessus, du F-score classique.

Algorithme utilisé pour désigner le vainqueur de DEFT'08

Les équipes seront classées en fonction des rangs obtenus sur la tâche 1 respectivement pour la classification dans la catégorie et pour celle dans le genre, et pour la tâche 2 pour la classification dans la catégorie, et en considérant chaque soumission comme atomique. On aura donc, pour chaque soumission, trois sous-tâches : tâche 1-classification-catégorie, tâche 1-classification-genre, tâche 2-classification-catégorie.

Le rang d'une soumission sera égal à la somme des rangs associés au F-score classique de cette soumission sur chaque sous-tâche.

L'algorithme qui sera utilisé est présenté ci-dessous :

début
Pour chaque sous-tâche faire
/* Score : liste qui associe à chaque couple (équipe, soumission) son F-score */
    Score(soumission, équipe) = F-score(sous-tâche, soumission, équipe)
/* tri de la liste Score dans l'ordre décroissant du F-score */
    Score_trié(soumission, équipe) = tri(Score(soumission, équipe))
/* tableau des rangs obtenus par chaque soumission de chaque équipe, pour la sous-tâche considérée */
    Rangs[sous-tâche][soumission][équipe] = rang(Score_trié(soumission, équipe))
fin Pour
pour chaque équipe ayant soumis faire
/* somme, sur toutes les sous-tâches, des rangs obtenus pour chaque soumission */
    Rang_global[soumission][équipe] = ∑sous-tâche Rangs[sous-tâche][soumission][équipe]
/* choix de la meilleure soumission (rang le plus faible) */
    Rang[équipe] = minsoumission(Rangs[soumission][équipe])
fin Pour
/* choix du vainqueur : équipe dont le rang est le plus faible */
    équipeV telle que : Rang[équipeV] = minéquipe(Rang[équipe])
fin

Publication      Soumission   Evaluation   Présentation

Chaque équipe participante est invitée à soumettre un article ne dépassant pas 10 pages qui décrit précisément les méthodes employées pour les différentes exécutions :

Les méthodes utilisées pour classer les textes devront être automatiques et reproductibles. Les articles devront rigoureusement détailler les techniques utilisées. Nous rappelons que seuls les corpus d'apprentissage fournis sont autorisés pour l'entraînement à la tâche. En particulier, l'utilisation de textes provenant des sources des corpus de DEFT'08 est interdite. Toute utilisation de corpus additionnels à ceux fournis par DEFT'08 devra être mentionnée dans l'article.

Les articles seront publiés dans les actes de l'atelier et distribués aux participants. L'ensemble des articles sera mis en ligne sur le site de DEFT'08.

A titre d'information, les articles des précédentes éditions de DEFT sont disponibles aux adresses :

DEFT'05 : actes de l'atelier
DEFT'06 : actes de l'atelier
DEFT'07 : http://deft07.limsi.fr/actes.php


LIMSI-CNRS