Conversion de DJVU en PDF

Question

Je souhaite convertir un document DJVU en un document PDF, en séparant et en préservant le calque de texte et le images tout en conservant la structure du DJVU. Comment puis-je faire cela dans Ubuntu?

(J'utiliserai alors Caliber pour convertir en ePub/Mobi, donc s'il y avait un plug-in Caliber pour tout ce processus, ce serait parfait pour moi!)

Note1: L'impression à partir d'Evince, l'exportation à partir de DJview ou quoi que ce soit utilisant le package ddjv , sont pas solutions adéquates lorsqu’elles éliminent le calque de texte et ne sauvegardent que des images.

Note2: Utiliser DJVULibre semble extraire uniquement le calque de texte et les images ne sont pas extraites . De même, copier le texte "manuellement" perd la structure du document et les images.

Ashu · Answer

Méthode 1

Utilisez simplement DJView et exportez au format PDF

Aller au gestionnaire de paquets Synaptic
Installer DJview4
Lancer DJview (Applications - Graphiques - DJView4)
Ouvrez votre document .djvu
: Menu - Exporter sous: PDF

Méthode 2

Ouvrez le fichier djvu dans evince
Sélectionnez print ----> print to file
change .ps en .pdf et cliquez sur Imprimer

Méthode 3

Aller au gestionnaire de paquets Synaptic
Installer

djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
Aller au terminal et écrire
```
 Sudo apt-get install libtiff-tools 
```
Allez au répertoire où le fichier djvu est présent. Cliquez avec le bouton droit de la souris. Allez à “Open In Terminal” option. Clique dessus. Un terminal va s'ouvrir.

Dans ce terminal, écris

ddjvu -format=tiff file_name.djvu file_name.tiff tiff2pdf -j -o file_name.pdf file_name.tiff

Méthode 4

Il existe également un convertisseur en ligne convertisseur DjVu en PDF

zetah · Answer

Voici une solution qui nécessiterait des outils moins courants:

ocrodjv
pdfbeads , qui a ses propres exigences que l'on peut trouver par Google

Nous pouvons utiliser la commande djvu2hocr (du paquet ocrodjvu) pour extraire le calque de texte caché du fichier DjVu (il ne fait pas de ROC ou similaire, il extrait simplement le calque de texte avec une géométrie), à savoir:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed intervention corrige les noms de classe dans la sortie hOCR (qui est un simple fichier HTML)

Nous extrayons maintenant la page DjVu au format TIFF avec:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

afin que nous terminions avec ces fichiers dans notre dossier de travail:

sample.djvu pg10.html pg10.tif

C'est ici que pdfbeads entre en jeu et nous exécutons simplement:

pdfbeads -o pg10.pdf

alors ce programme astucieux s’occupe de tout ce qui se trouve dans ce dossier (fichiers HTML et TIFF avec le même nom de base) et produit un fichier de sortie PDF avec certains sous-produits:

sample.djvu pg10.html pg10.tif pg10.jbig2 pg10.pdf pg10.sym

qui est identique au fichier DjVu en entrée et contient un calque de texte:

enter image description here

Résumé des commentaires:

Les longs commentaires ci-dessous expliquent comment représenter des images plus petites à partir d'une page de document DjVu en tant qu'objets séparés, ce qui est difficilement possible car la page de document DjVu n'est en elle-même qu'une seule image avec un calque de texte facultatif, sans aucune "information" sur les images plus petites en tant qu'objets séparés. Si le document DjVu contient des images couleur, elles seront généralement placées sur le calque d'arrière-plan. dans ce cas, l'utilisateur peut utiliser des outils tels que ddjvu (extraire uniquement le calque d'arrière-plan) et imagemagick (rognage automatique) pour générer uniquement des images au lieu d'un canevas complet, mais cette opération ne peut pas être automatisée pour créer PDF

Une autre approche plus saine, mais plus lente, consiste à utiliser des outils d'interface graphique OCR classiques. gscan2pdf (> 1.0) est suggéré comme candidat possible pour Linux PC

Oli · Answer

Il existe djvu2pdf mais il s’appuie sur ghostscript, il peut donc s'agir d’une autre option d’impression. Je vous suggère tout de même d'y jeter un coup d'œil, juste au cas où il serait plus intelligent que je ne le crédite.

Ce n'est pas dans le dépôt mais vous pouvez télécharger un deb depuis le site du fabricant: http://0x2a.at/s/projects/djvu2pdf

** Insérez ici un avis obligatoire concernant le téléchargement/l'installation d'éléments extérieurs au dépôt **

hayd · Answer

En utilisant DJVULibre , il est possible d’extraire la couche de texte à l’aide de la commande terminal:

djvutxt myfile.djvu > myfile-ocr.txt ou djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(les deux font la même chose, et ont été trouvés ici )

Le formatage nécessite quelques efforts (car de nombreux symboles ne sont pas convertis correctement) et les images ne sont pas récupérées .

Fazul · Answer

Le moyen le plus simple: utilisez gscan2pdf pour importer le fichier djvu, puis faites-le en OCR avec tesseract, puis enregistrez-le au format PDF. Le texte OCR dans le pdf peut être légèrement différent du djvu original, et la conversion peut prendre un certain temps, mais cette méthode est une évidence et elle fonctionne.