Bonjour,
Je souhaitais de supprimer de ma carte certains termes trop fréquents (ex. humans, male, female, etc.) J’ai utilisé pour cela une liste d’équivalence avec la deuxième colonne vide en face des termes à éliminer. J’ai indexé ensuite mon corpus avec cette liste. Cela n’a pas donné des résultats que j’ai attendus, sans doute je n’ai pas choisi la bonne méthode. Mais quelle est la bonne ?
Merci pour votre aide!
Lesya
1 Answers
Bonsoir LesyaB,
En effet. Tout dépend de l’origine des mots en question. Viennent-ils d’une extraction lexicale ?
Car en effet, pour travailler le texte, les concepts qui s’y expriment, il semblerait peut être plus adapté d’utiliser le processus classique :
- Extraction lexicale ;
- On travaille le vocabulaire (en téléchargeant la liste puis OpenOffice, ou directement depuis l’interface web) : avec deux opérations principales qui sont la suppression de lignes (exemple : un mot trop générique, ou du bruit) et la fusion de lignes (deux mots exprimant le même concept);
- Puis en indexant à nouveau les textes avec cette nouvelle liste retravaillée.
En espérant que ça aide !
Lionel