Corpus

Description des corpus

Les corpus seront disponibles au format XML. Nous détaillons ci-dessous les caractéristiques de chaque corpus ainsi que les traitements préparatoires qui ont été réalisés.

Piste 1. Variation diachronique

Objectif : classer chaque article du corpus dans sa décennie de publication.
Une décennie regroupe les années comprises entre 0 et 9 (par ex., de 1800 à 1809 pour la décennie "1800"). Dans le corpus d'entraînement, la décennie est indiquée entre balises <periode> et </periode>.
Toutes les classes (décennies de publication) du corpus de test sont représentées dans le corpus d'entraînement.

Ce corpus comprend des portions d'articles de journaux publiés parmi plusieurs titres français entre 1800 et 1944. Les documents sources sont le résultat d'une OCRisation en mode texte.

Le corpus est défini par les caractéristiques suivantes :

  • il intègre les bruits liés à l'OCRisation des documents (caractère mal reconnu : « Tonidn » au lieu de « Tonkin » – espaces supprimées : « courdelluélegouvernement » au lieu de « cour de Hué le gouvernement », etc.) ;
  • la structuration d'un article de journal (titraille, texte, etc.) n'est pas indiquée au moyen de balises typantes ; titres, textes et paragraphes s'enchainent donc sans distinction particulière ;
  • chaque portion comprend 300 mots (dans le sens d'une suite de caractères entourée d'espaces) :
    • une portion peut intégrer plusieurs articles courts qui s'enchainent dans l'édition d'origine ;
    • les phrases commençant et terminant une portion peuvent être segmentées (cf. exemple complet ci-dessous) ;
    • en revanche, aucun mot n'est tronqué (sauf si la troncature résulte de l'OCRisation ou d'une césure dans la version papier d'origine).
  • les années mentionnées dans les documents sont remplacées par une balise <annee /> ;
  • chaque document à traiter est rattaché à sa décennie de publication.

Piste 2. Origine géographique

Objectifs : classer chaque article du corpus selon le pays de publication (France vs. Québec) et le nom du journal (La Presse, Le Devoir, L'Est Républicain, Le Monde).
Dans le corpus d'entraînement, le pays est indiqué entre balises <pays> et </pays> tandis que le nom du journal l'est entre balises <journal> et </journal>.
Toutes les classes (pays et nom du journal) du corpus de test sont représentées dans le corpus d'entraînement.

Ce second corpus comprend des articles de journaux issus de quatre titres francophones provenant de deux pays :

  • France : Le Monde, L'Est Républicain ;
  • Québec : La Presse, Le Devoir.

Pour chaque journal, les articles ont été publiés pendant les années 1999, 2002 et 2003. Les articles de ce corpus sont issus de deux catégories thématiques : « informations générales » et « sport ».


Téléchargement des corpus

L'accès aux corpus est soumis à la signature préalable des deux contrats d'utilisation des corpus

Corpus d'entraînement

Les corpus d'entraînement sont disponibles au format XML dans des archives compressées .tar.gz

Mise à jour : mercredi 31 mars 2010.

Corpus de test

La phase de test déroule du 31 mai au 4 juin, dans une fenêtre de trois jours choisie par les participants.

  • Piste 1. Variation diachronique (les indications de date de publication et de nom du journal sont supprimées ; dans le corpus de test, seul le texte est disponible)
  • Piste 2. Origine géographique (les indications de noms de pays et nom du journal sont supprimées ; en revanche, le texte, le titre et la catégorie de publication sont conservés)

Mise à jour : jeudi 20 mai 2010.


Soumission

Conditions générales pour la soumission

  • La soumission des fichiers de résultats devra se faire au moyen de l'interface de soumission ;
  • Chaque équipe est libre de participer aux deux tâches, ou bien seulement à l'une des deux tâches proposées ;
  • Chaque équipe aura la possibilité de soumettre jusqu'à trois fichiers de résultats pour chaque tâche ;
  • Les résultats devront être produits dans des fichiers respectant le format donné ci-dessous ;
  • Les participants auront la possibilité optionnelle d'utiliser un score de confiance pour pondérer leurs résultats (la somme des scores de confiance utilisés pour un document ne devra pas excéder 1).

Format de sortie

Tâche 1. Variation diachronique

  • Sans utilisation du score de confiance
  • <?xml version="1.0" encoding="utf-8" ?>
    <corpus>
     <portion id="1">
      <decennie valeur="1880" />
     </portion>
     <portion id="2">
      <decennie valeur="1930" />
     </portion>
    </corpus>

     

  • Avec utilisation du score de confiance (dans l'exemple suivant, le système considère que la portion de texte numéro 1 relève à 70% de la décennie 1880, à 20% de la décennie 1870 et à 10% de la décennie 1890) :
  • <?xml version="1.0" encoding="utf-8" ?>
    <corpus>
     <portion id="1">
      <decennie valeur="1880" score="0.7" />
      <decennie valeur="1870" score="0.2" />
      <decennie valeur="1890" score="0.1" />
     </portion>
     <portion id="2">
      <decennie valeur="1930" score="0.57" />
      <decennie valeur="1820" score="0.31" />
      <decennie valeur="1940" score="0.12" />
     </portion>
    </corpus>

Tâche 2. Origine géographique

Pour chaque article, il importe d'indiquer le pays d'origine et le nom du journal. Les valeurs de chaque classe correspondent à l'initiale du nom du pays ou du journal :

  • Pays : F (France) ou Q (Québec) ;
  • Journal : D (Le Devoir), E (L'Est Républicain), M (Le Monde), P (La Presse).

Les participants devront distinguer dans leur fichier de résultats, le pays et le journal (en utilisant deux balises différentes) :

  • Sans utilisation du score de confiance (le système classe le document suivant comme ayant été publié en France "F" dans le journal Le Monde "M")
  • <?xml version="1.0" encoding="utf-8" ?>
    <corpus>
     <article id="1">
      <pays valeur="F" />
      <journal valeur="M" />
     </article>
    </corpus>

     

  • Avec utilisation du score de confiance (dans l'exemple suivant, le système considère que l'article étudié a 65% de chances d'avoir été publié en France "F" et à 35% au Québec "Q" ; ce même article a 40% de chances d'avoir été publié dans le journal L'Est Républicain "E", 35% dans La Presse "P" et 25% dans Le Monde "M") :
  • <?xml version="1.0" encoding="utf-8" ?>
    <corpus>
     <article id="1">
      <pays valeur="F" score="0.65" />
      <pays valeur="Q" score="0.35" />
      <journal valeur="E" score="0.4" />
      <journal valeur="M" score="0.25" />
      <journal valeur="P" score="0.35" />
     </article>
    </corpus>