Web of Science (WOS) Corpus | Parsing Script

ForumWeb of Science (WOS) Corpus | Parsing Script
PrJohnsen asked 2 months ago

Bonjour à tous,
J’ai une extraction du WOS (Full Record and Cited References, Plain Text) de 1321 docs.
Dans le rapport, il y a “2017-08-04 16:45:09 INFO : Data Enriching” késako ?

Merci

PJ
______________________________________________________________

2017-08-04 16:45:04 INFO : Parsing Script Started
2017-08-04 16:45:04 INFO :
Source:
Type of Data: dataset
Corpus Format: isi
Ignore entries with incorrectly formatted time steps: true

2017-08-04 16:45:04 INFO : Preparing raw data
2017-08-04 16:45:04 INFO : Parsing file /srv/local/documents/8053/8053cc30de2716a925ea1f30773f9d27/plant-science/savedrecs(1).txt
2017-08-04 16:45:07 INFO : Parsing file /srv/local/documents/8053/8053cc30de2716a925ea1f30773f9d27/plant-science/savedrecs(2).txt
2017-08-04 16:45:09 INFO : Parsing file /srv/local/documents/8053/8053cc30de2716a925ea1f30773f9d27/plant-science/savedrecs.txt
2017-08-04 16:45:09 INFO : Data Enriching
2017-08-04 16:45:13 INFO : 831 total entries
2017-08-04 16:45:13 INFO : Fields extracted: [u’ISIFX’,
u’ISIABSTRACT’,
u’ISIJOURNAL’,
u’ISIFU’,
u’ISIkeyword’,
u’ISIVolume’,
u’ISIPage’,
u’ISIUT’,
u’ISISC’,
u’ISIWC’,
u’ISIAUTHOR’,
u’ISIDOI’,
u’ISIDT’,
u’ISIC1_1′,
u’ISIC1_0′,
u’ISICR’,
u’ISIpubdate’,
u’ISITITLE’,
u’ISIAF’,
u’ISIID’,
u’ISITC’,
u’ISIRP’,
u’ISISO’,
u’ISImonth’,
u’ISICRAuthor’,
u’ISICRYear’,
u’ISICRJourn’,
u’ISICitedRef’,
u’ISIC1City’,
u’ISIC1Country’,
u’ISIC1Inst’,
u’ISIC1State’,
u’ISIC1Zip’,
u’Address’]
2017-08-04 16:45:13 INFO : Temporal data spanning from 2007 to 2017
2017-08-04 16:45:13 INFO : Parsing ended successfully

1 Answers
jphcoi_public answered 3 weeks ago

Par défaut, les articles en doublons sont éliminés de la base de données finale. Il est probable que parmi vos fichiers de départ, certains soient identiques (il manque 490 notices). Est-ce que vous pouvez revérifier vos données sources ?
 

PrJohnsen replied 3 weeks ago

Merci, je comprends mieux le data Enriching.
Mais effectivement il y avait un problème d’extraction. J’ai bel et bien retrouvé mes 1321 documents.

learn about CorText scripts and share your experience