• Question : les types de littérature (entre balises <type> et </type>) seront-ils présents dans le corpus de test ?
Réponse : oui. Par ailleurs, les trois principaux types de documents sont très très court, poème, et nouvelles. Les sous-catégories sont, par exemple : arts, jeunesse, mélancoliesolitude, etc. Voir page des corpus.
• Question : les numéros d'ordre indiqués pour chaque catégorie signifient-ils que zéro est la première catégorie ?
Réponse : oui.
• Question : que faire des documents et relectures dont le contenu est remplacé par HASH ?
Réponse : ne pas tenir compte de ces documents (impossible de faire une prédiction sur cette base). Nous ne tiendrons pas compte des 3 documents concernés dans le corpus de test. Cette valeur correspond à une absence de contenu dans l'œuvre ou dans la relecture.
• Question : est-ce que dans le corpus de test
peuvent exister des sessions qui n'apparaissent pas dans le corpus
d'apprentissage ?
Réponse : des noms de sessions absentes du
corpus d'apprentissage peuvent exister dans le corpus de
test. Cependant, les listes des sessions utilisées chaque année
seront fournies à l'appui du corpus de test, comme elles le sont
déjà pour le corpus d'apprentissage.
• Question : concernant l'ensemble de test qui sera
fourni pour la tâche 4 de cette année, est-ce que *toutes* les
sessions normalisées de l'ensemble de test apparaissent dans le
train ?
Réponse : non. Les noms de sessions sont différentes
entre les corpus d'apprentissage et de test. Les noms de sessions
absentes du corpus d'apprentissage peuvent exister dans le corpus de
test. Cependant, les listes des sessions utilisées chaque année
seront fournies à l'appui du corpus de test, comme elles le sont
déjà pour le corpus d'apprentissage.
• Question : le découpage des données sera t-il fourni avec le test : titre, auteurs, mots-clé, résumé, papier.
Réponse : oui, le format des données est le même entre apprentissage et test.