Auteur de la photo: Andrei Tilin

Présentation

Depuis 5 ans DEFT propose des campagnes d'évaluation dans le domaine de la Fouille de Textes. L'atelier DEFT'10 se tiendra cette année à Montréal dans le cadre de la conférence TALN. L'inscription à TALN comprend également la participation aux ateliers. Une inscription à la seule journée de l'atelier DEFT'10 est possible.

Appel à communication

Où et quand un article de presse a-t-il été écrit ?

Atelier d'évaluation en fouille de textes sur l'identification de la période et du lieu de publication d'articles de presse francophone

Contact : deft10@limsi.fr

Cette campagne d'évaluation bénéficie du soutien de CEDROM-SNi, du CNRTL et de ELDA.

Présentation

DEFT2010, sixième édition de la campagne d'évaluation en fouille de textes, portera sur les variations diachroniques et géographiques en corpus de presse francophones. L'atelier de clôture se tiendra à Montréal dans le cadre de la conférence TALN 2010.

Un locuteur francophone natif est capable de détecter dans une conversation des expressions spécifiques à un pays (par exemple au niveau des nombres "septante" et "nonante" en Belgique et en Suisse contre "soixante-dix" et "quatre-vingt-dix" en France et au Québec, et "huitante" en Suisse vs. "quatre-vingts" dans les trois autres pays).

Un lecteur est également capable de mobiliser des connaissances linguistiques, culturelles et historiques pour identifier la période (sur une échelle plus ou moins grande) de parution d'un article (en identifiant un événement particulier et/ou des tournures linguistiques ou des entités nommées jugées représentatives d'une période donnée).

Comme tout acte de communication, les documents ont une origine et un public visé ; leur nature, c'est-à-dire leurs contenu, niveaux de langue, etc. en dépend fortement. Dans cette édition du défi fouille de textes, nous nous intéressons à l'origine des documents, plus particulièrement à l'époque et au lieu de leur création.

Dans ce cadre, nous proposons plusieurs pistes distinctes et indépendantes.

Piste 1.

Cette piste, relative à la variation diachronique, concerne l'identification de la décennie de publication d'extraits d'articles français d'une taille de 300 mots. Les extraits de ce corpus couvrent une période comprise entre 1800 et 1944.

Le corpus d'apprentissage se composera d'extraits (300 mots) d'articles de quatre titres de journaux différents, le corpus de test intègrera des extraits provenant de ces quatre mêmes titres plus un cinquième titre absent du corpus d'apprentissage, de manière à éprouver la robustesse des systèmes.

Piste 2.

L'identification de l'origine géographique de chaque document (pays d'origine) constituera la seconde piste de cette campagne. Elle reposera sur des corpus de presse rassemblant plusieurs titres provenant de France et du Québec.

Présentation générale

Pour ces deux pistes, les participants ont eu la possibilité d'utiliser des ressources externes (linguistiques, historiques, etc.) qu'ils doivent obligatoirement déclarer. En ce qui concerne plus spécifiquement la piste 1, les ressources provenant de Gallica n'ont pas été autorisées.

Les participants ont été invités à participer aux deux pistes. Il est cependant possible de ne participer qu'à une seule des pistes.

Des corpus d'apprentissage ont été fournis aux participants inscrits, à partir du 31 mars 2010. Ces corpus sont composés de 60% des corpus d'origine. Les 40% de corpus restants ont été utilisés pour le test. Le test s'est déroulé sur une semaine, du 31 mai au 4 juin. Les participants ont bénéficié de trois jours pour appliquer, sur les corpus de test, les méthodes mises au point sur les corpus d'apprentissage et nous retourner leurs résultats d'analyse.


Dates importantes :

  • Inscription : à partir du 25 janvier 2010. Les équipes souhaitant participer à DEFT 2010 devront s'inscrire à l'aide du formulaire en ligne et signer les accords de mise à disposition des corpus.
  • Diffusion des corpus d'apprentissage : à partir du 31 mars 2010
  • Test : au choix, 3 jours dans la semaine du 31 mai au 4 juin 2010
  • Diffusion des résultats : le 8 juin 2010
  • Soumission des articles : le 22 juin 2010
  • Atelier de clôture : le 23 juillet 2010 lors de la conférence TALN
    Programme de la journée : PDF [827 Ko].

Comité d'organisation :

  • Dominic Forest (EBSI, UdeM)
  • Cyril Grouin (LIMSI-CNRS)
  • Lyne Da Sylva (EBSI, UdeM)