j’aurais une question très simple : comment faire en sorte que les termes indexés d’un corpus ne soient pas pris en compte dans les analyses de correspondance ? Autrement dit, comment choisir la variable d’entrée individuelle (ce à quoi nous invite le commentaire du menu déroulant “fields”).
Cas pratique :
Un corpus de commentaires sur TripAdvisor, indexé.
L’individu : le commentaire, doté d’un identifiant
seules quelques variables doivent être incluses dans l’acm, comme la longueur (intervalles de valeurs), la note globale du commentaire etc., chacune ayant peu de modalités (au maximum 6).
La difficulté vient du fait que lorsque l’on choisit comme entrée individuelle l’identifiant du commentaire, l’ACM prend en compte les termes d’indexation, donnant un graphe illisible et une variance portée sur les axes absolument dérisoire.
Faut-il désindexer le corpus? Modifier l’architecture des données? Choisir un autre champ (ce que j’ai fait avec des résultats similaires)?
Merci pour votre aide.