Corpus List Indexer

ghirigori asked 8 years ago

Bonjour,
 
J’ai lu la doc, mais je n’arrive quand même pas à trouver la solution, et je me demandais si tu pourrais m’aider. Voilà ce que j’ai fait jusqu’à maintenant : 
 
– Je chargé sur la plateforme mon fichier html comprimé, je l’ai parsé, j’ai lancé Corpus Explorer pour vérifier que la base avait été bien parsée. 
 
– J’ai lancé Terms Extraction sur le corpus, j’ai téléchargé le csv résultant, je l’ai ouvert en OpenOffice, puis j’ai ajouté “w” dans la colonne appropriée pour exclure des termes, et j’ai fusionné d’autres termes (p.e., chef d’État et président de la République) en ajoutant les ‘formes’ de la première à celle de la seconde dans la colonne droite, et en effaçant ensuite la ligne entière contenant la première forme. J’ai sauvegardé le nouveau fichier en csv (appelons ce fichier Ciro).
 
– J’ai chargé Ciro comme corpus et je l’ai parsé.
 
– Puisque je voulais changer la ‘main form’ de quelques uns des termes, j’ai créé un nouveau fichier OO à deux colonnes, celle à gauche contenant les anciens termes – ceux qui apparaissent dans Ciro – et celle à droite contenant les nouveau termes. Pour les termes superflus (ceux qui sont marqués par ‘w’ dans Ciro), j’ai fait correspondre à chacun de ces termes à gauche une celle vide dans la colonne de droite. J’ai sauvegardé en csv (appelons ce fichier Mario). 
 
– J’ai lancé ensuite Corpus List Indexer sur le corpus originaire ; j’ai sélectionné comme ‘Field’ Terms_custom_Ciro, et j’ai sélectionné comme dictionnaire Mario. Toutefois, le résultat du script est un fichier qui contient encore les mots qui auraient dû être exclus (ceux que j’avais signé avec un w dans Ciro et dont j’avais laissé les celles vides dans Mario). 
 
– Par conséquent, quand je lance Network Mapping en sélectionnant ‘Terms’ deux fois dans les deux champs, je retrouve ces termes aussi.

1 Answers
Lionel Staff answered 8 years ago

Bonjour,
 
J’ai l’impression qu’il ne s’agit pas de la bonne combinaison de scripts:

Pour le lexique:

  • Term extraction : pour l’extraction lexicale qui produit le vocabulaire que tu peux ensuite retravailler et regrouper dans un csv (avec les fameux |&| et les w en fin de ligne)
  • Corpus Term indexer : une fois que le lexique a été retravaillé, pour l’appliquer au corpus (indexer des champs textuels avec les nouveaux terms)

Pour corriger/agréger/classer une liste de valeurs (ex: pays, villes, noms d’individus ou d’institutions… mais c’est aussi possible avec les terms, même si ce n’est pas la vocation première)

  • list builder : extrait la liste des valeurs en fonction des critères. Ca produit un csv avec les différentes valeurs et leurs fréquences… Ajouter une colonne après la première (entity) qui contiendra les nouvelles classes/valeurs.
  • corpus list indexer : une fois les nouvelles valeurs ajoutées, applique ces valeurs à une variable préexistante. Choisir yes pour “Define a custom list of entities” pour filtrer seulement avec les valeurs du fichier csv. Choisir yes pour “Add a dictionnary of equivalent strings” pour remplacer ces valeurs par les nouvelles classes/valeurs. Dans les deux cas, choisir le même fichier csv. Cette action une fois terminée produit une nouvelle table (nouveau champ manipulable dans les autres scripts).

Pour les deux types (term et list) bien penser à nommer le script d’indexation pour retrouver plus facilement les nouveaux champs produits et ne pas les confondre.
Bien à toi,
Lionel