web-dev-qa-db-fra.com

Comment convertir une page Web en PDF exactement comme sur un navigateur Web et texte/liens?

Je cherche un moyen de convertir une page Web en PDF, tout en préservant son aspect. Préserver également le texte de la page Web (pouvant être sélectionné), permet d'effectuer une recherche [Le fait de générer une capture d'écran de l'image pour la page Web ne rendrait le texte ni sélectionnable ni pouvant faire l'objet d'une recherche].

Je cherche à imprimer la page Web sur PDF telle quelle (comme sur un navigateur Web) sans aucune manipulation de style ni d'alignement, ni perte des composants statiques de toute page Web.

Cela aiderait à préserver les copies hors ligne des pages Web qui sont facilement lisibles, annotables et consultables.


Vous n'avez pas besoin de lire ce qui suit (la question concerne uniquement la section ci-dessus)} pour comprendre ma question. La section suivante ne fait que dresser la liste de ce que j’ai obtenu grâce à la recherche ou aux réponses des autres de manière imbriquée afin d’obtenir une réponse à la question.

Résultats de recherche (suggestions qui n'ont pas résolu mon problème)

Résultats obtenus jusqu'ici en essayant de trouver une solution (tous ne fonctionnent toujours pas comme solution à cette question)

J'ai essayé ces PDF moteurs d'impression Web, mais toutes les pages sont manipulées, plus dommageables et parfois moins lisibles: ( Exemple de page les captures d'écran sont entre crochets)

  • Chrome [ Original , Styles d'impression ( Désactivé | non désactivé )]
  • Firefox [ Original , Styles d'impression (Désactivé p1 , p2 | non désactivé p1 , p2 )]
  • Lisibilité
    • Cela simplifie la page Web (ce qui est une bonne chose pour une lecture ciblée - mais ce n’est pas ce que je cherche). Je cherche à conserver toutes les propriétés des positions/styles de la page Web, telles qu'elles apparaissent sur le navigateur Web, au format PDF sans aucune manipulation.
  • Foxit Reader
  • NovaPDF
  • CutyCapt [ Original , facteur de zoom: 0,4: Captures d'écran, PDF de sortie]
    • J'ajouterai des liens après avoir résolu les problèmes d'exécution du programme sous Windows "
  • wkhtmltopdf [ Original , facteur de zoom: 0,4: Captures d'écran , Sortie PDF ]
    • Il ne supporte pas CSS3.

Toutes les pages Web image capture capture plugins (par exemple Abduction , Awesome Screenshot , Fireshot , Firefox Capture Developer Tool , Capture d'écran de la page complète , Page2Images , web-capture , ...) ne répondez pas à ma question, car ils ne conservent pas le texte et les liens.

Scrible conserve parfaitement les pages Web de la même manière que pour les annotations et les recherches ultérieures, mais malheureusement toujours en ligne et sans conversion au format PDF.

Il y a deux autres questions sur la communauté similaires à la mienne, cependant, celle-ci est un peu différente mais avec ces distinctions importantes:

Plus de questions similaires pour lesquelles la préservation du texte et des liens n'est pas obligatoire (les pages sont capturées sous forme de captures d'écran principalement):


Remarques

Système d'exploitation: Windows 10

19
Omar

Nous avons rencontré le même problème dans un projet universitaire et avons pu le résoudre en utilisant

wkhtmltopdf

Nous avons vraiment apprécié les capacités de cet outil en ligne de commande. Nous l'avons également appelé en utilisant du code python pour rendre l'état actuel des pages Web. Il a la possibilité de fournir la page Web au format PDF, ce qui n'est généralement pas idéal pour préserver la vue du site Web en raison du formatage de la page (A4 par exemple), ou au format png (conserve la vue de la page mais pas les liens).

Nous avons également utilisé le projet de lisibilité (pour Python: pypi.python.org/pypi/readability-lxml) qui supprime assez bien la suppression des annonces et la détection du contenu (par exemple, des articles de journaux et autres). Si vous voulez juste un addon ou une extension pour votre navigateur, la mise en œuvre de lisibilité suivante peut satisfaire votre besoin:

https://www.readability.com/addons/

6
SSchneid

J'ai eu le même problème et je l'ai compris via Chrome et avec un pilote d'imprimante appelé PDF995, que j'ai téléchargé en toute sécurité et gratuitement (un lien à télécharger est https://pdf995.en.softonic.com/ autre is http://downloads.tomsguide.com/pdf995,0301-829.html ).

Cependant, je pense que tout navigateur Web et tout convertisseur de pdf suffiront. Quoi qu'il en soit, voici ce que j'ai fait:

  1. tout sélectionner ou tout mettre en évidence.
  2. Cliquez avec le bouton droit sur la sélection en surbrillance ou appuyez sur Ctrl + P (les deux options donnent des résultats légèrement différents, mais vous obtenez le même résultat à la fin).

  3. Si vous avez cliqué avec le bouton droit de la souris sur 2., la sélection (le raccourci), cliquez sur "Imprimer". Seule toute la sélection sera effectuée dans l'aperçu avant impression. Assurez-vous de changer votre destination d'imprimante pour le convertisseur de pdf que vous décidez d'utiliser (PDF995 ou autre).

  4. Cliquez sur "imprimer" et il enregistre en tant que document pdf.

  5. Si vous avez appuyé sur Ctrl + P dans 2. (le chemin légèrement plus long), cliquez sur "Plus de paramètres" et faites défiler jusqu'à "Options".

  6. Cliquez sur la case "Sélection uniquement" et tout le raccourci que j'ai décrit suivra.

  7. N'oubliez pas de changer la destination de votre imprimante pour le convertisseur de pdf de votre choix (PDF995 ou autre).

  8. Cliquez sur "imprimer".

1
user726167

Si vous êtes sur Linux, essayez ce petit outil en ligne de commande CutyCapt , qui ne dépend que de Qt et QtWebkit, et exporte au format PDF.

Bien que ce ne soit pas exactement votre demande, elle ne figure pas au format PDF, mais si l'objectif est uniquement de conserver une copie hors ligne des pages Web pour une consultation ultérieure, l'enregistrer en tant que page Web ferait exactement cela.

Le gros inconvénient est qu'il créera un fichier .html et un dossier avec tout le contenu multimédia de la page plutôt qu'un seul document.

Dans Chrome et Firefox, vous pouvez enregistrer une page en cliquant dessus avec le bouton droit de la souris et en choisissant Enregistrer sous ... Dans Internet Explorer, vous pouvez l'enregistrer sous Fichier -> Enregistrer sous (en appuyant sur la touche Alt pour faire apparaître les menus).

0
Pyheme

Essayez ce service. Crée un PDF à partir d'un site Web tel que vous le voyez dans le navigateur. https://lomotoh.com/ (je suis affilié à ce site)

0
David Herse

Au moins tout le texte de certaines pages est interrogeable, sélectionnable, coupé et collable. J'ai essayé sur une page collée de manière robotique par un ordinateur à partir de texte et de pix et cela a tout réglé dans une image.

J'ai utilisé ces choses pendant des années. J'obtiens les meilleurs résultats sous Linux en reconstruisant la page dans le format XX Word de votre choix et en exportant le résultat au format PDF. Je peux obtenir ce que je veux à un coût considérable. De mon utilisation limitée Arch ivin Le site David Herse mis en place https://lomotoh.com/ (je suisPASaffilié à ce site) fonctionne aussi bien que tout ce que j'ai jamais fait utilisé. Je serai ma ressource de référence pour couvrir les pages Web en PDF jusqu'à ce que je trouve mieux ou que cela me coûte trop cher de payer avec mon propre porte-monnaie.

0
Gordon Couger