web-dev-qa-db-fra.com

Utiliser tika avec python, runtimeerror: impossible de démarrer le serveur tika

J'essaie d'utiliser le paquet tika pour analyser des fichiers. Tika est installé avec succès, tika-server-1.18.jar exécuté avec Code en cmd Java -jar tika-server-1.18.jar

Mon code dans Jupyter est:

Import tika 
from tika Import parser
parsed = parser.from_file('')

Cependant, je reçois l'erreur ci-dessous:

2018-07-25 10: 20: 13,325 [MainThread] [WARNI] Impossible de voir le message du journal de démarrage; nouvelle tentative ... 2018-07-25 10: 20: 18,329 [MainThread] [WARNI] Impossible de voir le message du journal de démarrage; nouvelle tentative ... 2018-07-25 10: 20: 23,332 [MainThread] [WARNI] Impossible de voir le message du journal de démarrage; nouvelle tentative ... 2018-07-25 10: 20: 28,340 [MainThread] [ERREUR] Le message du journal de démarrage de Tika n'est pas reçu après 3 essais. 25/07/2018 10: 20: 28,340 [MainThread] [ERREUR] Impossible de recevoir la confirmation de démarrage de startServer.

RuntimeError: impossible de démarrer Tika Server.

11
Sha Li

Selon site d'Apache Tika , toutes les nouvelles versions de tika-server.jar nécessiteront Java 8.

24 avril 2018: Apache Tika Release Apache Tika 1.18 est sorti! Cette version inclut des correctifs de bogues (par exemple, l'extraction de formes groupées dans PPT), des correctifs de sécurité et des mises à niveau des dépendances. VEUILLEZ NOTER: Les prochaines versions nécessiteront Java 8. Veuillez consulter le fichier CHANGES.txt pour la liste complète des changements dans la version et consultez la page de téléchargement pour plus d'informations sur la façon de obtenez Apache Tika 1.18.

Les documents obsolètes actuels pour tika Python affirme que Java 7 est nécessaire, mais maintenant Java 8 doit être installé. est parce que la version actuelle de tika-server.jar est automatiquement téléchargée au moment de l'exécution si elle n'est pas trouvée dans votre fichier temporaire.

Après avoir installé Java 8, mon code de test de base a lancé le serveur et a fonctionné sans erreur.

7
autry.richard

Vous n'avez pas passé d'argument (spécifié un fichier) dans votre ligne:

parsed = parser.from_file ('')

Donnez-lui un fichier à mâcher, par exemple,

parsed = parser.from_file('myfile.txt')

Le serveur n'a pas démarré et probablement cet avertissement sans journal est déclenché - voir la ligne 644 dans la source à le Github

puis un autre message d'erreur vous dit que ça ne va pas jouer ...

1
user1613312

Téléchargez Java. Si vous avez déjà une version de Java installée, essayez de la mettre à jour vers la dernière version. La version qui fonctionne pour moi est 1.18.

1
Arjun Rao