question term extraction – indexation du corpus

CorText Manager Q&A forumCategory: Text processingquestion term extraction – indexation du corpus
slouvel asked 3 years ago

Bonjour,
j’ai effectué le script term extraction sur un corpus. dois-je “nettoyer” la liste de termes sur le CSV “extracted term list” ou bien sur le “CSV indexed term list” ?
Une fois cette opération de nettoyage réalisée, est-il exact que je dois réindexer le corpus avec la nouvelle liste de termes ? Pour cela, Cortext propose seulement d’utiliser “extracted term list” ?
merci pour vos réponses
 

1 Answers
Jean-Philippe Cointet Staff answered 3 years ago

Par défaut, la liste de terme extraite est automatiquement indexée pour produire une nouvelle variable Terms. 
Il est possible (et probable) que vous souhaitiez apporter quelques ajustements à cette liste. Les changements doivent être fait en local dans open office ou Google Sheets, enregistré au même format (tabulé) puis uploadés dans le manager (en indiquant term list comme “Data Type”). Par suite il est nécessaire d’indexer le corpus en fonction de cette liste mise à jour grâce au script corpus_term_indexer.