web-dev-qa-db-fra.com

Texte floue dans PDF

J'ai un PDF qui a un texte floue. Le texte lui-même est lisible mais provoque beaucoup de tension.
[.____] Ceci est un exemple du texte.

This

Y a-t-il un moyen de le nettoyer?

15
user1255895

Ceci est une couche raster qui, malheureusement, contient également du texte. Sans doute le moyen le plus simple de corriger tel PDF serait d'utiliser ABBYY FINEREADER (commercial, fonctionne sur Windows, Linux, Mac OS). A PDF ou fichier image (S) est chargé et traité selon le scénario souhaité. Par exemple, nous n'avons pas vraiment besoin de pré-traitement et d'OCR fonctionne bien après avoir choisi la langue anglaise pour le document:

enter image description here

Lors de la sauvegarde du document reconnu, assurez-vous de sélectionner Texte et images uniquement dans la section Enregistrer le mode:

enter image description here

Cela entraînerait un "propre" PDF avec des polices de vecteur évolutif sans pixelisation:

enter image description here

Alternativement, on peut également utiliser d'autres outils OCR gratuits et open-source tels que Tesseract / capture2text / NAPS2 et utilisation == LibreOffice Writer / latex Pour créer un nouveau PDF à l'aide de texte reconnu.

27
andselisk

Le texte a été rastérisé - transformé en "points".

Il devrait toujours être vecteur - en utilisant des polices réelles qui sont dessinées en direct à l'écran.

Cela pourrait être dû au fait que le document a été scanné et est effectivement une photo, ou parce que, à un moment donné de son histoire, la police attendue était manquante.

La seule solution réelle serait de trouver une application OCR (reconnaissance optique de personnage) et ré-numériser.

17
Tetsujin

Il y a une autre possibilité pour la cause de la floue: une couche de filtre placée au-dessus de la couche raster numérisée.

J'ai travaillé dans une place il y a quelques années qui avaient des scanners de documents dans le réseau. Vous avez numérisé vos affaires et le scanner vous a envoyé la copie par courrier électronique - ou vous pouvez l'avoir envoyé directement à l'adresse électronique de quelqu'un d'autre.

Parfois, des analyses de documents texte sortiraient vraiment floues. En tant que personne la plus compétente informatique disponible, je suis resté coincé avec la détermination de ce que le problème était.

Il s'est avéré que le scanner identifie de manière incorrecte le texte sous forme d'image et insérant un filtre au-dessus de celui-ci pour réduire l'effet MOIÉ qui résulte des points d'images de demi-teinte et de la résolution du scanner.

Vous pouvez corriger ces numérisations de texte floue à l'aide d'un PDF Editor pour supprimer la couche de filtrage au-dessus du texte.

Je n'ai jamais fait comprendre pourquoi certaines scannes avaient le filtre et certains ne l'ont pas fait. Un bug ou un cas de bord dans l'algorithme de reconnaissance des demi-teintes - qui sait.

Votre branches n'est probablement pas causée par un filtre, mais c'est quelque chose à garder à l'esprit.

5
JRE