Homogeneous network of Twitter hashtags

CorText Manager Q&A forumCategory: Network mappingHomogeneous network of Twitter hashtags
MayaAndersonGonzalez asked 4 years ago
This post comes from an email exchange we had with Lionel Villard, director of CorText, that is being reproduced here for debugging purposes.

[BUG]

We’re using the Network Mapping script to generate a homogenous network of Twitter hashtags.
To do this, we’re loading a zipped csv file containing data scraped from Twitter, and choosing ‘hashtags’ in Field 1 and Field 2 of the Nodes tab. All other parameters were set to default.
This is the error we kept getting: “Apparently at least one of the network you produced is empty, please review the choice of your parameters (fields and proximity metric choice)”.

Note: There is no problem when generating heterogeneous networks by selecting different variables in Field 1 and Field 2.

[BUG FIX]

First step : clean your csv file
1/ Open the csv file with Calc Open office (comma as separator, quotation marks as separator for strings)
2/ Perform a series of Find & Replace actions:

> Find \n and replace with a space to get rid of returns > Find and replace double spaces with single spaces > In the hashtags column : Find and replace [‘ by nothing. Do the same for ‘].
> Find and replace ‘, ‘ by ***
3/ Save as « text csv », change the file name, click on edit the csv filters, choose « UTF8 » and « Tabulation » comme séparateur de column, and DO NOT USE separators for strings (delete “).

Second step : import your csv into CorText

1/ Zip the csv file
2/ Upload it to CorText Manager
3/ Choose robust csv
4/ Define date in Time Field
5/ Choose yes for the « Date Format,… » option
6/ Choose day and type in the year (2020, in this case)

Ce post contient les échanges que nous avons eu avec Lionel Villar, directeur de CorText Manager, que nous documentons ici pour d’autres utilisateurs.

[BUG]
Bonjour,
Nous utilisons le script Network Mapping pour générer un réseau de cooccurrences de hashtags collectés sur Twitter. Nous avons zippé notre csv et l’avons chargé dans Cortext, mais nous rencontrons un problème lors du paramétrage : une erreur se produit lorsqu’on génère un réseau homogène (en indiquant la même variable dans le champ 1 et le champs 2 de l’onglet ‘Nodes’).
Note: Nous arrivons cependant à générer des réseaux hétérogènes avec 2 variables différentes
[BUG FIX]
Voici les étapes :
1/ Ouvrir le fichier csv avec Calc Open office (virgule comme séparateur, Séparateur de chaine de caractère : guillemets)
2/ Rechercher & Remplacer les retours de chariots en expression régulière : rechercher \n et le remplacer par un espace
3/ Rechercher & Remplace les doubles espaces et les remplacer par un espace simple (il y en a bcp, faire la manip plusieurs fois)
4/ Dans la colonne hashtags : Rechercher & Remplacer [‘ par rien. Et Rechercher & Remplacer ‘] par rien. Et en Rechercher & Remplacer ‘, ‘ par ***
5/ Enregistrer sous « texte csv », changer de nom, cliquer sur éditer les filtres csv, choisir « UTF8 » et « Tabulation » comme séparateur de colonne, et ne pas utiliser de séparateur de chaine de caractères (supprimer le “).
Ensuite:
Zipper le fichier csv
Uploader dans CorText Manager et :
1/ choisir robust Csv
2/ définir date dans le paramètre Time Field
3/ Dans l’option « Date Format,… » Choisir yes
4/ Préciser la granularité des analyses (day, je pense), et choisissez l’année de début (2020)

Lionel Staff replied 4 years ago

Thanks!