Terms Extraction

ghirigori asked 7 years ago

Bonjour,
J’ai lancé une Terms Extraction sur mon corpus, et il y a quelque chose d’étrange qui se passe. Si je limite l’extraction aux 100 premiers termes, j’ai des entités qui disparaissent si j’élargis l’extraction aux 120 premiers. Any ideas why that happens? 
Merci!

1 Answers
Lionel Staff answered 7 years ago

ReBonjour,
Sans connaitre les deux listes, il y a deux principaux facteurs qui peuvent jouer :

  • La C-value ou unithood permet de repérer les emboîtements de termes. Plus la liste est longue, plus il va être possible d’associer des termes « sous-ensembles » avec leurs « parents » éventuels (plus long, mais moins fréquents), ex : « délicieuse tarte tatin caramélisée », « tatin caramélisée ». La C-Value est utilisé pour filtrer en fonction de la minimum frequency choisie. Aussi des lignes de termes extraits et récupérés dans le csv, leurs main-form, peuvent être modifiées par cette sélection et par la taille de la liste.
  • List length (sélection basée sur la spécificité) : ici il s’agit de déterminer le caractère spécifique, discriminant, d’un terme. Par défaut, le Chi2 est la mesure qui est définie. C’est cette valeur, calculée pour chaque terme extrait, qui est utilisée pour construire la liste des N termes qui vont être sélectionnés (par défaut 100). Donc attention : suivant la mesure de spécificité choisie, la value calculée dépend de la composition de la liste (entre deux listes, le même muti-term, peut avoir deux valeurs de spécificité distinctes).

Aussi en triant les fichiers extraits (avec trerm extraction) par la colonne correspondant à la mesure de spécificité choisie (par défaut Chi2), on retombe à peu près sur ses petits.
Bon courage !
Lionel

Lionel Staff replied 7 years ago

voir : https://docs.cortext.net/lexical-extraction/