Bonjour à tous,
J’ai une extraction du WOS (Full Record and Cited References, Plain Text) de 1321 docs.
Dans le rapport, il y a “2017-08-04 16:45:09 INFO : Data Enriching” késako ?
Merci
PJ
______________________________________________________________
2017-08-04 16:45:04 INFO : Parsing Script Started
2017-08-04 16:45:04 INFO :
Source:
Type of Data: dataset
Corpus Format: isi
Ignore entries with incorrectly formatted time steps: true
2017-08-04 16:45:04 INFO : Preparing raw data
2017-08-04 16:45:04 INFO : Parsing file /srv/local/documents/8053/8053cc30de2716a925ea1f30773f9d27/plant-science/savedrecs(1).txt
2017-08-04 16:45:07 INFO : Parsing file /srv/local/documents/8053/8053cc30de2716a925ea1f30773f9d27/plant-science/savedrecs(2).txt
2017-08-04 16:45:09 INFO : Parsing file /srv/local/documents/8053/8053cc30de2716a925ea1f30773f9d27/plant-science/savedrecs.txt
2017-08-04 16:45:09 INFO : Data Enriching
2017-08-04 16:45:13 INFO : 831 total entries
2017-08-04 16:45:13 INFO : Fields extracted: [u’ISIFX’,
u’ISIABSTRACT’,
u’ISIJOURNAL’,
u’ISIFU’,
u’ISIkeyword’,
u’ISIVolume’,
u’ISIPage’,
u’ISIUT’,
u’ISISC’,
u’ISIWC’,
u’ISIAUTHOR’,
u’ISIDOI’,
u’ISIDT’,
u’ISIC1_1′,
u’ISIC1_0′,
u’ISICR’,
u’ISIpubdate’,
u’ISITITLE’,
u’ISIAF’,
u’ISIID’,
u’ISITC’,
u’ISIRP’,
u’ISISO’,
u’ISImonth’,
u’ISICRAuthor’,
u’ISICRYear’,
u’ISICRJourn’,
u’ISICitedRef’,
u’ISIC1City’,
u’ISIC1Country’,
u’ISIC1Inst’,
u’ISIC1State’,
u’ISIC1Zip’,
u’Address’]
2017-08-04 16:45:13 INFO : Temporal data spanning from 2007 to 2017
2017-08-04 16:45:13 INFO : Parsing ended successfully
Par défaut, les articles en doublons sont éliminés de la base de données finale. Il est probable que parmi vos fichiers de départ, certains soient identiques (il manque 490 notices). Est-ce que vous pouvez revérifier vos données sources ?
Merci, je comprends mieux le data Enriching.
Mais effectivement il y avait un problème d’extraction. J’ai bel et bien retrouvé mes 1321 documents.