Corpus list indexer – Dictionnaire d’équivalences

CorText Manager Q&A forumCategory: Text processingCorpus list indexer – Dictionnaire d’équivalences
Beadavi asked 3 years ago

Bonjour,
Je souhaite corriger une liste de mots clés avant de réaliser une carte de cooccurences. Les mots clés sont issus de références du WOS et les champs ISI ID et Keywords sont concaténés dans un champ KWfusion.
J’ai indexé le contenu de ce champ (list builder), puis utilisé le script corpus list indexer pour générer une nouvelle variable avec mes mots clés recodés mais les termes restent identiques et aucune modification n’est apportée.
Dans la custom list of entities j’ai intégré la liste csv de tous les mots clés figurant dans le corpus générée avec list builder sans entête de colonne..
Dans le dictionnaire d’équivalences j’ai mis deux colonnes first entity et second entity, avec dans la première le terme à remplacer et dans la seconde le terme de remplacement (qui n’existe pas forcément dans la list of entities en cas d’erreur de ponctuation (par exemple “zipf’s law” remplacé par “zips law”).
Merci d’avance pour votre aide
Cordialement
Béatrice

Lionel Staff replied 3 years ago

voir ci-dessous

1 Answers
Lionel Staff answered 3 years ago

Bonjour Béatrice,
A la suite des scripts list builder ayant permis de construire une liste de termes corrigées, il faut travailler les listes en les réunissant dans un csv avec la structure suivante :

  • tabulation separated
  • utf8
  • ancien nom dans la première colonne -> nouveau nom dans la seconde colonne (il est d’ailleurs possible d’ajouter d’autres colonnes, comme des classes, qui seront automatiquement affectées aux documents contenant les anciens noms)

Un exemple se trouve ici sur la Covid19
Dans cet exemple, les mots clefs “covid-19”, “sars-cov-2”, “2019-ncov”, “sars-cov2”, “covid 19” et “sars-cov” sont harmonisées en sars-cov2. Il en va de même “plasmodium”.
Une fois la liste construite, il convient de la déposer à nouveau sur CorText Manager et d’utiliser le script “Corpus List Indexer” avec les options suivantes :

  • Add a dictionary of equivalent strings=”yes”
  • et choisir dans la liste déroulante le fichier de mots clefs harmonisés;

De cette façon tous les anciens noms seront harmonisés vers les nouveaux noms du fichiers csv. La nouvelle variable créée portera le nom de l’ancienne variable suivie du nom de la colonne contenant les nouveaux noms (harmonized-keyword dans l’exemple).
Attention, tous les mots figurant dans la variable contenant les anciens noms, mais n’apparaissant pas dans le fichier csv seront malgré tout conservés, sans modification donc. Pour exclure ces mots et ne pas les considérer dans la nouvelle variable contenant les mots harmonisés, il faut activer l’option : Define a custom list of entities =  Yes et préciser à nouveau le fichier csv. Ce cette façon seuls les mots du fichier csv sont ajoutés à la nouvelle variable (90 mots dans l’exemple, à la place des 1400 mots extrait initialement avec list builder).
En espérant que cela aide !
L