web-dev-qa-db-fra.com

Impossible de copier le texte d'un fichier pdf

J'utilise foxit PDF reader pour afficher mon manuel. Je voudrais copier le texte du fichier pdf dans un document Word mais cela ne me le permettra pas. Je peux sélectionner le texte correctement, mais l'option de copier du texte n'est pas disponible. Je peux copier du texte à partir d'autres documents mais pas certains. Existe-t-il un moyen de contourner cette protection dans Windows?

37
Jonno_FTW

Le fichier pdf a probablement été bloqué contre la copie de texte. Voici deux manières de le déverrouiller:

  1. Si le fichier PDF n'a pas été verrouillé contre l'impression, vous pouvez l'imprimer sur une imprimante PDF virtuelle pour créer un fichier non verrouillé. Regarde ça:
    "Supprimez le mot de passe et déverrouillez les fichiers protégés PDF pouvant être imprimés sans connaître le secret" .
  2. Si la fonction d'impression a été verrouillée, voir ceci:
    "Supprimer les restrictions et déchiffrer le mot de passe protégé PDF Fichiers avec PDF Unlocker" .
28
harrymc
  1. Ouvrez le fichier PDF dans Google Chrome (faites glisser le fichier PDF sur Chrome).
  2. Imprimez la page en tant que PDF ou ouvrez tout simplement l'aperçu avant impression.
  3. Vous pouvez maintenant copier le texte de l'aperçu avant impression ou du fichier PDF de sortie. Mais je ne pense pas que vous puissiez copier le tableau directement.
24
Khaleel

J'ai pu créer une version sans DRM de votre fichier PDF en utilisant Ghostscript (disponible sous Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

Le fichier résultant stripped.pdf peut être chargé dans Adobe Reader, qui vous permettra volontiers de copier n'importe quelle partie de celui-ci. Il préserve également la majeure partie du formatage du tableau.

11
Michael Hampton

J'ai réussi à copier le tableau de votre fichier PDF avec Okular (pour Linux; composant de KDE). Pour ce faire, je devais aller dans les paramètres d'Okular et décocher "Obéir aux restrictions DRM".

Je suis conscient que cela ne vous aide pas beaucoup depuis que vous utilisez Windows, mais c'est une possibilité si vous avez une machine Linux à portée de main ou si vous souhaitez l'installer.

Malheureusement, il s’agissait de texte brut sans mise en forme, mais il semble qu’il ne soit pas trop difficile de recréer le tableau. Vous pouvez voir les résultats de mon aventure copier-coller ici .

2
Michael Hampton

Vous pouvez utiliser GT Text est un programme qui traduit des images (également des instantanés pdf = image) en texte. Vous pouvez sélectionner la zone et la copier dans le presse papier C'est gratuit

La page d'accueil officielle est http://gttext.googlecode.com

1
David

Une autre possibilité est Evince .

Sous Windows , il semble prendre en charge la copie par défaut.

Sous Linux, la copie peut être activée en vérifiant le paramètre override_restrictions s'il ne l'est pas déjà, en suivant ces instructions (dconf-editor/org/gnome/evinceoverride_restrictions).

0
endolith

si la copie est grisée, comme le doute l'est pour vous, alors le PDF est 'verrouillé', il peut être lu, mais vous empêche en fait de copier/coller quoi que ce soit.

Ce site ouvrira un PDF

https://smallpdf.com/unlock-pdf

0
barlop

Cela a réussi à convertir le texte de base. Il a traîné avec des tables bien.

http://www.onlineocr.net/documents

0
Rob Sedgwick

Si vous ne recherchez que des extraits courts, vous pouvez souvent saisir quelques mots dans Google entre guillemets et trouver la citation exacte déjà numérisée dans un autre format ou dactylographiée par quelqu'un d'autre.

Une autre option est "Document from Photo" dans l'application Android Google Docs, qui permet de transférer le texte via OCR. Ceci est sujet aux erreurs, bien sûr.

Je souhaite que PDF la fonctionnalité de verrouillage n'ait jamais existé. :(

0
endolith

Réponse à endolith:

Votre PDF est protégé contre la copie, mais non contre l'impression.

J'ai donc imprimé la page contenant le tableau 6.15 dans un autre PDF qui n'est pas protégé contre la copie, sélectionné et copié le tableau, puis collé dans Word. À ma grande surprise, le résultat de la pâte a été un déchet total.

J'ai maintenant regardé de plus près à ce tableau et trouvé un résultat très surprenant: Ceci n'est pas un tableau!

Il s’agit en réalité d’un montage de petits morceaux de texte, positionnés sur la page de manière à ressembler à un tableau. Mais ce n'est pas une vraie table.

Le mieux que vous puissiez faire est de réécrire le tout sous forme de tableau ou d’utiliser simplement dans votre travail une capture d’écran de ce texte assemblé semblable à un tableau.

Voici ma capture d'écran du tableau, tirée de mon document pdf d'une page généré :

image

0
harrymc