DEFT2011

accueilprésentationcorpusformatsévaluationsfaqactes

Formats de sortie

Cette page décrit les formats de sortie attendus pour chaque tâche. Des scripts seront fournis ultérieurement pour vérifier la bonne formation de chaque fichier de sortie.

Rappel des objectifs de chaque tâche :

Pour chaque piste de chaque tâche, les participants auront la possibilité de soumettre jusqu'à 3 soumissions.

Pour chaque document à traiter (portion de journal dans la tâche 1, couple résumé/article dans la tâche 2), les participants auront la possibilité, s'ils le souhaitent, de fournir plusieurs résultats qui seront alors pondérés par un score de confiance. La somme des scores de confiances pour un même document devra être égale à 1.

▸ Format des noms de fichiers :

Tâche 1. Variation diachronique

Pour cette tâche, quel que soit le format de sortie choisi (avec ou sans score de confiance), nous demandons aux participants d'indiquer obligatoirement le rang de chaque réponse pour chaque document (voir exemples ci-dessous). Les résultats des participants seront évalués de deux manières :

▸ Format de sortie sans score de confiance

Nous attendons des participants qu'ils nous fournissent un fichier XML indiquant, pour chaque portion traitée, l'année de parution estimée.

<?xml version="1.0" encoding="utf-8" ?>
<corpus>
 <portion id="1">
  <annee valeur="1879" rang="1" />
 </portion>
 <portion id="2">
  <annee valeur="1934" rang="1" />
 </portion>
</corpus>
▸ Format de sortie avec score de confiance

Nous attendons des participants qu'ils nous fournissent un fichier XML indiquant, pour chaque portion traitée, les années de parution estimées, chaque année étant pondérée par un score de confiance (la somme ne devant pas excéder 1 pour un même document). Il est demandé aux participants d'indiquer obligatoirement le rang de chaque résultat (les années de rang 1 étant utilisées pour le classement final).

<?xml version="1.0" encoding="utf-8" ?>
<corpus>
 <portion id="1">
  <annee valeur="1879" score="0.42" rang="1" />
  <annee valeur="1878" score="0.27" rang="2" />
  <annee valeur="1880" score="0.14" rang="3" />
  <annee valeur="1882" score="0.09" rang="4" />
  <annee valeur="1874" score="0.08" rang="5" />
 </portion>
 <portion id="2">
  <annee valeur="1931" score="0.41" rang="1" />
  <annee valeur="1934" score="0.41" rang="2" />
  <annee valeur="1943" score="0.18" rang="3" />
 </portion>
</corpus>

 

Tâche 2. Appariements résumé/article

Pour cette tâche, quel que soit le format de sortie choisi (avec ou sans score de confiance), il n'est pas nécessaire d'indiquer le rang de chaque réponse pour chaque document. Les résultats des participants seront évalués de la manière suivante : chaque réponse retournée (l'identifiant de l'article associé au résumé traité dans les exemples ci-dessous) sera prise en compte dans l'évaluation (en termes de nombre de documents ramenés et nombre de documents correctement ramenés, nécessaires pour les calculs du rappel et de la précision).

▸ Format de sortie sans score de confiance

Nous attendons des participants qu'ils nous fournissent un fichier XML indiquant, pour chaque résumé traité (balise <resume fichier="nom.res" />), l'article scientifique qui lui correspond (balise <article fichier="nom.art" />) en rassemblant ce couple de balises entre balises <doc> et </doc>. La force d'association dans le cas présent est alors maximale. Si l'article renseigné correspond au résumé, le participant obtient 100% des points.

<?xml version="1.0" encoding="utf-8" ?>
<corpus>
 <doc>
  <resume fichier="001.res" />
  <article fichier="127.art" />
 </doc>
 <doc>
  <resume fichier="002.res" />
  <article fichier="246.art" />
 </doc>
</corpus>

Et pour l'appariement des résumés avec les textes :

<?xml version="1.0" encoding="utf-8" ?>
<corpus>
 <doc>
  <resume fichier="001.res" />
  <texte fichier="199.txt" />
 </doc>
 <doc>
  <resume fichier="002.res" />
  <texte fichier="064.txt" />
 </doc>
</corpus>
▸ Format de sortie avec score de confiance

Nous attendons des participants qu'ils nous fournissent un fichier XML indiquant, pour chaque résumé traité (balise <resume fichier="nom.res" />), l'ensemble des articles scientifiques que le participant estime correspondre (balise <article fichier="nom.art" score="score" />) en rassemblant ce groupe de balises entre balises <doc> et </doc>. La force d'association de chaque article avec le résumé concerné est alors renseignée par le score de confiance. Pour chaque document, la somme des scores de confiance doit être égale à 1.

<?xml version="1.0" encoding="utf-8" ?>
<corpus>
 <doc>
  <resume fichier="001.res" />
  <article fichier="127.art" score="0.41" />
  <article fichier="199.art" score="0.31" />
  <article fichier="001.art" score="0.28" />
 </doc>
 <doc>
  <resume fichier="002.res" />
  <article fichier="246.art" score="0.49" />
  <article fichier="016.art" score="0.37" />
  <article fichier="177.art" score="0.14" />
 </doc>
</corpus>

Et pour l'appariement des résumés avec les textes :

<?xml version="1.0" encoding="utf-8" ?>
<corpus>
 <doc>
  <resume fichier="001.res" />
  <texte fichier="127.txt" score="0.41" />
  <texte fichier="199.txt" score="0.31" />
  <texte fichier="001.txt" score="0.28" />
 </doc>
 <doc>
  <resume fichier="002.res" />
  <texte fichier="246.txt" score="0.49" />
  <texte fichier="016.txt" score="0.37" />
  <texte fichier="177.txt" score="0.14" />
 </doc>
</corpus>