DEFT 2018

Défi Fouille de Textes@CORIA/TALN 2018

Recherche d'information et analyse de sentiments dans des tweets sur les transports en IDF

Motivations

Créé en 2005 à l’image des campagnes TREC et MUC, le DÉfi Fouille de Textes est une campagne d’évaluation francophone qui propose chaque année de confronter les méthodes de plusieurs équipes de recherche sur une thématique régulièrement renouvelée dans le domaine de la fouille de textes.

Dans la continuité de la onzième campagne DEFT 2015, la treizième édition DEFT2018 portera sur la recherche d'information et l’analyse de sentiments dans des tweets rédigés en français, sur une nouvelle thématique : les transports en Île-de-France.

La campagne utilisera un corpus annoté manuellement produit dans le cadre du projet REQUEST (Programme d'Investissement d'Avenir, appel Cloud computing & Big Data, convention 018062-25005) en collaboration avec ELDA (http://www.elda.org). Il contient 80.000 tweets, annotés manuellement.

Description des tâches

Les quatres tâches proposées lors de ce défi sont :

  1. Tâche 1 : Classification transport/non-transport
    Étant donné un message déterminer si ce message concerne les transports en Île de France ou non.
    E476 TRANSPORT "Les gars qui puent des aisselles dans le bus c'est vous"

  2. Tâche 2 : Polarité globale
    Étant donné un message concernant les transports Île de France, déterminer la polarité globale du message, choisie parmi les 4 classes : POSITIF, NEGATIF, NEUTRE, ou MIXPOSNEG.
    E476 NEGATIF "Les gars qui puent des aisselles dans le bus c'est vous"

  3. Tâche 3 : Marqueur de sentiment et cible
    Étant donné un message concernant les transports en Île de France et exprimant des sentiments, déterminer pour chaque expression, l'empan de texte MINIMAL (à l'exclusion des modifieurs et adjoints) réferrant à l'expression de sentiment et l'empan de texte MAXIMAL (y compris les modifieurs et les adjoints) réferrant à la CIBLE du sentiment correspondante, c'est-à-dire à l'objet qu'il concerne.
    E476 <G type=CIBLE id=G1>Les gars</G> qui <G type=DERANGEMENT id=G2>puent</G> <G type=CIBLE id=G3>des aisselles</G> dans le bus c'est <G type=CIBLE id=G4>vous</G> relations SUR de l'expression de sentiment vers l'objet : SUR(G2, G1), SUR(G2, G3), SUR(G2, G3), SUR(G2, G4).

  4. Tâche 4 (exploratoire): Annotation complète
    Étant donné un message concernant les transports en Île de France et exprimant des sentiments, déterminer pour chaque expression de sentiment l'empan de texte minimal réferrant à l'expression de sentiment et les empans de texte maximaux réferrant respectivement à la CIBLE du sentiment, c'est à dire à l'objet qu'il concerne, et à la SOURCE, c'est à dire à l'entité qui exprime ce sentiment. Le cas échéant, on indiquera aussi les empans de texte minimaux en relation avec l'expression de sentiment qui référent soit à une https://perso.limsi.fr/pap/DEFT2018/samples_from20160426_5C_af.xml

Données et évaluation

Données d'entraînement

Pour les participants à la campagne d'évaluation, les corpus d'entraînement des 4 tâches sont disponibles à l'url https://ocsync.limsi.fr/index.php/s/Mbm4Hl5YnALJRKx

. Le corpus contient 68916 tweets annotés en fonction des différentes tâches. Si vous avez perdu votre identifiants vous pouvez nous contacter en nous écrivant à deft2018 A@T limsi.fr

Le guide d'annotation en ligne

Le guide d'annotation archive .tgz

Évaluation

En cours

Guide d'annotation

Le guide d'annotation en ligne

Le guide d'annotation archive .tgz

Programme de l'atelier

Ce programme prévisionnel est susceptible d'évoluer.

  • 9h00 : accueil des participants
  • 9h20-9h50 – DEFT2018 : recherche d’information et analyse de sentiments dans des tweets concernant les transports en Île de France. Patrick Paroubek, Cyril Grouin, Patrice Bellot, Vincent Claveau, Iris Eshkol-Taravella, Amel Fraisse, Agata Jackiewicz, Jihen Karoui, Laura Monceaux, Juan-Manuel Torres-Moreno
  • 9h50-10h10 – LSE au DEFT 2018 : Classification de tweets basée sur les réseaux de neurones profonds. Antoine Sainson, Hugo Linsenmaier, Alexandre Majed, Xavier Cadet, Abdessalam Bouchekif (EPITA)
  • 10h10-10h30 – LIRMM@DEFT-2018 - Modèle de classification de la vectorisation des documents. Waleed Mohamed Azmy, Bilel Moulahi, Sandra Bringay, Jérôme Azé, Maximilien Servajean (LIRMM)
PAUSE
  • 11h00-11h20 – Participation d’EDF R&D à DEFT 2018. Philippe Suignard, Lou Charaudeau, Manel Boumghar, Meryl Bothua, Delphine Lagarde (EDF R&D)
  • 11h20-11h40 – Notre tweet première fois au DEFT-2018 : systèmes de détection de polarité et de transports. David Graceffa, Armelle Ramond, Emmanuelle Dusserre, Ruslan Kalitvianski, Mathieu Ruhlmann, Muntsa Padró (Eloquant)
  • 11h40-12h00 – Syllabs@DEFT2018 : combinaison de méthodes de classification supervisées. Chloé Monnin, Olivier Querné, Olivier Hamon (Syllabs)
  • 12h00-12h20 – Omar Jaafor, Babiga Birregah (UTTLM2S)
DEJEUNER
  • 14h00-14h30 – Modèles en Caractères pour la Détection de Polarité dans les Tweets. Davide Buscaldi, Joseph Le Roux, Gaël Lejeune (Tweetaneuse)
  • 14h30-15h00 – DEFT 2018: Attention sélective pour classification de microblogs. Charles-Emmanuel Dias, Clara Gainon de Forsan de Gabriac, Vincent Guigue, Patrick Gallinari (LIP6)
  • 15h00-15h30 – Participation de l’IRISA à DeFT 2018 : classification et annotation d’opinion dans des tweets. Anne-Lyse Minard, Christian Raymond, Vincent Claveau (IRISA)
  • 15h30-16h00 – Concaténation de réseaux de neurones pour la classification de tweets, DEFT2018. Damien Sileo, Tim Van de Cruys, Philippe Muller, Camille Pradel (Synapse Développement & IRIT)
PAUSE
  • 16h30-18h00 – Discussion

Actes de l'atelier

Les actes de l'édition 2018 de DEFT sont rassemblés dans le volume 2 des Actes TALN 2018.

Comités

Comité scientifique

  • Patrice Bellot (LSIS)
  • Farah Benamara (IRIT)
  • Vincent Claveau (IRISA)
  • Iris Eshkol (PHILLIA - U. Paris-Nanterre)
  • Amel Fraisse (GERIICO)
  • Cyril Grouin (LIMSI-CNRS)
  • Vincent Guigue (LIP6)
  • Thierry Hamon (LIMSI-CNRS)
  • Agata Jackiewicz (Praxiling, Université Montpellier 3)
  • Jihen Karoui (LIUM)
  • Laura Monceau (LINA)
  • Véronique Moriceau (IRIT)
  • Viviana Patti (U. Torino)
  • Mathieu Roche (CIRAD)
  • Juan-Manuel Torres-Moreno (LIA)

Comité d'organisation

  • Iris Eshkol (PHILLIA - U. Paris-Nanterre)
  • Patrick Paroubek, LIMSI, CNRS, Université Paris-Saclay
  • Amel Fraisse (GERIICO - U. Lille3)
  • Vincent Claveau (IRISA)
  • Cyril Grouin, LIMSI, CNRS, Université Paris-Saclay
  • Thierry Hamon, LIMSI, CNRS, Université Paris-Saclay, Université Paris XIII