impossible de parser un corpus istex

CorText Manager Q&A forumCategory: Data processingimpossible de parser un corpus istex
Régis Barraud asked 8 hours ago

Bonjour, Je rencontre la difficulté suivante (job id: 417964) : J\’ai constitué une requête ISTEX afin d\’obtenir un corpus sur la thématique des \”wild rivers\”. J\’ai suivi les indications de téléchargement du corpus (pour istex, .zip). Je parviens à charger ce corpus mais pas à le parser. J\’ai essayé à plusieurs reprises sans succès. C\’est étrange car j\’ai déjà effectué ce type de procédure il y a quelques temps sans rencontrer de problème. Pourriez-vous m\’indiquer la marche à suivre ? Merci d\’avance pour votre aide Bien cordialement Régis Barraud  

aleabdo Staff replied 2 hours ago

Ni! Bonjour Régis.
Je viens de regarder et il s’agit d’un document spécifique qui pose problème au parseur.
Normalement les documents problématiques sont juste ignorés et le problème informé dans les “logs”, donc je dois regarder de plus près ce qui se passe dans ce cas-ci.
Je te tiendrai au courant via ce fil du forum.
Au cas où, le document où ça s’arrête serait : “istex-wild-rivers-v1.zip/DF4252270902D08BD17690C589E01E85C1632322”
A disposition,
ale

aleabdo Staff replied 2 hours ago

Ni! Ok, j’ai trouvé le problème. Une demi-douzaine de documents dans ton corpus n’ont pas la structure de fichiers habituelle d’Istex. Je ne sais pas pourquoi ou ce que cela signifie, donc je dois regarder plus en détail et reformuler une partie du parseur.
Si tu veux avancer sans ces documents, il faut supprimer leurs dossier de l’archive zip:
“`
DF4252270902D08BD17690C589E01E85C1632322
38E20DBF96CA9C3654E8223C415D62D08C06F38C
648486CDEBE950C3CF3DB28533F3D9E26C54B406
B0059C3D6D5D580E49225E78BD5E870C74303B2E
65FA00FCF4E99054D10DA4CFB652F2CABF88CEFE
2A0156A08DE1BD484296F0D447E0F4B5C3EAC600
“`