DEFT2012

accueilprésentationcorpusévaluationsoumissionactes

Les mesures de DEFT 2012

Les mesures qui ont été retenues pour l'évaluation 2012 sont les mesures de précision, rappel, et f-mesure[1], calculés avec une micro-moyenne[2]. Ce sont ces mesures qui ont été utilisées pour la piste 5 de la campagne SemEval-2010 : Automatic Keyphrase Extraction from Scientific Articles[3].

Notons D l'ensemble des idenfiants de documents, K l'ensemble de tous les mots-clés utilisés par le système, W l'ensemble des mots-clés utilisés dans la base documentaire, les données hypothèse H, c.a.d l'ensemble des paires associant un identifiant de document à un mot clé fourni par le système participant et R les données référence, c'est-à-dire l'ensemble des paires associant un identifiant de document à un mot clé issu de la base documentaire. Naturellement, pour un même identifiant de document, il peut exister plusieurs paires, aussi bien dans H que dans R, mais nous n'aurons pas de paire doublon au sein de l'un de ces ensembles, car les mots-clés seront alors différents. En effet, il n'y a aucun intérêt à annoter un document plusieurs fois avec le même mot-clé

H = { (d, Lem(Norm(w)) / d ∈ D, w ∈ W, ((d, w1) ∈ H) ∧ ((d, w2) ∈ H) ⇒ w1 ≠ w2}
R = { (a, Lem(Norm(k)) / a ∈ D, k ∈ K, ((a, k1) ∈ R) ∧ ((a, k2) ∈ R) ⇒ k1 ≠ k2}
Norm() est une fonction de normalisation de la typographie des mots-clé (normalisation de la casse) et Lem() est une fonction de lemmatisation des mots-clé.

L'ensemble des mots-clé correctement associé à un document par le système est TP = H ∩ R
L'ensemble des mots-clé incorrectement associé à un document par le système est FP = H \ (H ∩ R)
L'ensemble des mots-clé non trouvé par le système est FN = R \ (H ∩ R)


La précision, le rappel et la f-mesure calculé en micro-moyenne sont alors :
p = |H ∩ R| / |H|
r = |H ∩ R| / |R|
f = (2.p.r) / (p+r)

Notons que nous utilisons l'égalité stricte sur les mots-clés sans avoir recour à une distance sémantique qui permettrait par exemple de s'appercevoir que recherche d'information est plus prôche de fouille de données que d'algorithmique afin de ne pas biaiser l'évaluation par rapport à une ontologie particulière. Nous décidé aussi de ne pas prendre en compte les recouvrements partiels de termes comme ayant une certaine validité pour éviter de recompenser un système qui retournerait fouilles archélogiques alors que la bonne réponse est fouille de données. Bien entendu, ce choix a pour résultat que par exemple la fourniture d'un hyponymes d'un terme au lieu du terme sera considérée comme aussi fausse que la fourniture de n'importe quel autre terme. Nous nous réservons cependant la possibilité de produire des mesure de performance complémentaires, mais seulement à titre indicatif. Pour les résultats officiels de la campagne seuls la performance en f-mesure en micro-moyenne sera prise en compte.

Bibliographie

[1]C. D. Manning et H. Schütze, Foundation of Statistical Natural Language Processing, Massachusetts institute of Technology Press, 2002.
[2] Didier Nakache et Elisabeth Métais, Évaluation~: nouvelle approche avec juges, INFORSID, pp 555-570, 2005,Grenoble.
[3] Su Nam Kim, Olena Medelyan, Min-Yen Kan, Timothy Baldwin, SemEval-2010 task 5: Automatic keyphrase extraction from scientific articles, Proceeding SemEval '10, Proceedings of the 5th International Workshop on Semantic Evaluation Association for Computational Linguistics Stroudsburg, PA, USA 2010.