DEFT 2018

Défi Fouille de Textes@CORIA/TALN 2018

Recherche d'information et analyse de sentiments dans des tweets sur les transports en IDF

Motivations

Créé en 2005 à l’image des campagnes TREC et MUC, le DÉfi Fouille de Textes est une campagne d’évaluation francophone qui propose chaque année de confronter les méthodes de plusieurs équipes de recherche sur une thématique régulièrement renouvelée dans le domaine de la fouille de textes.

Dans la continuité de la onzième campagne DEFT 2015, la treizième édition DEFT2018 portera sur la recherche d'information et l’analyse de sentiments dans des tweets rédigés en français, sur une nouvelle thématique : les transports en Île-de-France.

La campagne utilisera un corpus annoté manuellement produit dans le cadre du projet REQUEST (Programme d'Investissement d'Avenir, appel Cloud computing & Big Data, convention 018062-25005) en collaboration avec ELDA (http://www.elda.org). Il contient 80.000 tweets, annotés manuellement.

Description des tâches

Les quatres tâches proposées lors de ce défi sont :

  1. Tâche 1 : Classification transport/non-transport
    Étant donné un message déterminer si ce message concerne les transports en Île de France ou non.
    E476 TRANSPORT "Les gars qui puent des aisselles dans le bus c'est vous"

  2. Tâche 2 : Polarité globale
    Étant donné un message concernant les transports Île de France, déterminer la polarité globale du message, choisie parmi les 4 classes : POSITIF, NEGATIF, NEUTRE, ou MIXPOSNEG.
    E476 NEGATIF "Les gars qui puent des aisselles dans le bus c'est vous"

  3. Tâche 3 : Marqueur de sentiment et cible
    Étant donné un message concernant les transports en Île de France et exprimant des sentiments, déterminer pour chaque expression, l'empan de texte MINIMAL (à l'exclusion des modifieurs et adjoints) réferrant à l'expression de sentiment et l'empan de texte MAXIMAL (y compris les modifieurs et les adjoints) réferrant à la CIBLE du sentiment correspondante, c'est-à-dire à l'objet qu'il concerne.
    E476 <G type=CIBLE id=G1>Les gars</G> qui <G type=DERANGEMENT id=G2>puent</G> <G type=CIBLE id=G3>des aisselles</G> dans le bus c'est <G type=CIBLE id=G4>vous</G> relations SUR de l'expression de sentiment vers l'objet : SUR(G2, G1), SUR(G2, G3), SUR(G2, G3), SUR(G2, G4).

  4. Tâche 4 (exploratoire): Annotation complète
    Étant donné un message concernant les transports en Île de France et exprimant des sentiments, déterminer pour chaque expression de sentiment l'empan de texte minimal réferrant à l'expression de sentiment et les empans de texte maximaux réferrant respectivement à la CIBLE du sentiment, c'est à dire à l'objet qu'il concerne, et à la SOURCE, c'est à dire à l'entité qui exprime ce sentiment. Le cas échéant, on indiquera aussi les empans de texte minimaux en relation avec l'expression de sentiment qui référent soit à une https://perso.limsi.fr/pap/DEFT2018/samples_from20160426_5C_af.xml

Données et évaluation

Données d'entraînement

Pour les participants à la campagne d'évaluation, les corpus d'entraînement des 4 tâches sont disponibles à l'url https://ocsync.limsi.fr/index.php/s/Mbm4Hl5YnALJRKx

. Le corpus contient 68916 tweets annotés en fonction des différentes tâches. Si vous avez perdu votre identifiants vous pouvez nous contacter en nous écrivant à deft2018 A@T limsi.fr

Le guide d'annotation en ligne

Le guide d'annotation archive .tgz

Évaluation

En cours

Guide d'annotation

Le guide d'annotation en ligne

Le guide d'annotation archive .tgz

Programme de l'atelier

Bientôt

Actes de l'atelier

Pas encore

Comités

Comité scientifique

  • Patrice Bellot (LSIS)
  • Farah Benamara (IRIT)
  • Vincent Claveau (IRISA)
  • Iris Eshkol (PHILLIA - U. Paris-Nanterre)
  • Amel Fraisse (GERIICO)
  • Cyril Grouin (LIMSI-CNRS)
  • Vincent Guigue (LIP6)
  • Thierry Hamon (LIMSI-CNRS)
  • Agata Jackiewicz (Praxiling, Université Montpellier 3)
  • Jihen Karoui (LIUM)
  • Laura Monceau (LINA)
  • Véronique Moriceau (IRIT)
  • Viviana Patti (U. Torino)
  • Mathieu Roche (CIRAD)
  • Juan-Manuel Torres-Moreno (LIA)

Comité d'organisation

  • Iris Eshkol (PHILLIA - U. Paris-Nanterre)
  • Patrick Paroubek, LIMSI, CNRS, Université Paris-Saclay
  • Amel Fraisse (GERIICO - U. Lille3)
  • Vincent Claveau (IRISA)
  • Cyril Grouin, LIMSI, CNRS, Université Paris-Saclay
  • Thierry Hamon, LIMSI, CNRS, Université Paris-Saclay, Université Paris XIII