Web of Science (WOS) Corpus | Extract CSV | Database (.db)

CorText Manager Q&A forumCategory: Data processingWeb of Science (WOS) Corpus | Extract CSV | Database (.db)
PrJohnsen asked 7 years ago

Bonjour à tous !J’ai un corpus de 30 000 articles tirés du Web of science (WOS).  J’ai besoin d’extraire la totalité du corpus pour l’avoir en CSV. De ce que j’ai pu observer, il y a 3 solutions : Télécharger le .db généré puis avec un logiciel tiers de gestion de bdd, exporter les tables en CSV Faire un CorpusExplorer et Télécharger le fichier deep.txt (structuré en JSON ?) puis convertir à plat Faire plusieurs CorpusExplorer et exporter en CSV Quelles est la meilleures des manières selon vous ? Existe-t-il de meilleure façon de procéder ? Sachant que le script CorpusExplorer m’affiche souvent des erreurs du type :   (DataTables warning: table id=example – Invalid JSON response. For more information about this error, please see http://datatables.net/tn/1) ou ne m’affiche pas d’éléments dans les tables… Merci pour votre aide !

1 Answers
Jean-Philippe Cointet Staff answered 7 years ago

Le corpus_explorer est susceptible de poser problème sur les grosses bases de données. Idéalement, si l’interface s’affiche correctement, elle devrait permettre d’exporter le tableau sous la forme d’un csv ou d’un fichier excel (boutons en haut à droite). Dans le cas contraire, le plus simple est encore de télécharger la base de données originale et d’utiliser un logiciel d’édition de base de données en sqlite pour l’ouvrir et en exporter les tables (DB browser for sqlite sous mac, le plugin firefox sqlite manager sinon). Repartir du fichier deep.txt généré par le corpus_explorer est une option possible également, mais il faut alors le convertir en csv (depuis un format json en effet). bon courage !

orianabras replied 5 years ago

Dear Jean-Philippe and PrJohsen, I believe I am facing a similar problem but I confess I did not fully understand the solutions you both suggest above. WoS does not allow me to export more than 500 entries each time and my total is around 28000. Is there a way to export them all that I have not figured out? Even if I do export them in savedrec.txt files of 500 entries each, how do I move them into one single file afterwords? Thank you so much for your help and I am sorry if I am asking too basic a question.