web-dev-qa-db-fra.com

Convertir pdf, doc, ppt en html5

J'ai googlé (sans aucune chance) pour open source software that can convert doc, ppt, and pdf to HTML5. (Exactement ce que Scribd fait) Existe-t-il des équivalents open source au type de conversion que Scribd fait?

Si quelqu'un connaît un service payant, cela fonctionnerait également. Scribd a un API , mais c'est pour une utilisation avec la visionneuse flash. Aussi, je voudrais héberger mon propre contenu car j'ai besoin d'un contrôle supplémentaire sur le document html converti .

39
KevMo

Il est peu probable que vous trouviez une offre unique qui fasse tout cela, en particulier dans le monde open source. Il est plus probable que vous finissiez par vous reposer sur un méli-mélo de choses, et que vous ayez même besoin de chaîner certains convertisseurs pour accéder au HTML. (Par exemple PDF -> ps -> HTML)

OpenOffice prend en charge la conversion au format HTML et peut être appelé à partir de la ligne de commande.

http://pdftohtml.sourceforge.net/ semble assez bon pour convertir un pdf en html.

Pour Doc qui est au format Word ML ou OpenXML, il est concevable que vous puissiez utiliser des transformations XSLT car les formats d'entrée et de sortie sont XML. J'ai vu des feuilles de style flotter autour du net qui font ça, mais YMMV.

Soit dit en passant, pourquoi existe-t-il une exigence spécifique pour l'open source? MS PowerPoint prend déjà en charge la sauvegarde au format HTML par exemple.

15
imoatama

Open Office convertira le pdf en html mais vous aurez un coup à la qualité de conception.

Je suggère soit: Crocodoc comme un service payant (Il fournit différentes saveurs pour différentes plates-formes telles que Python, Ruby, Java, PHP Les développeurs sont autorisés à travailler sur leurs API.) Ou à attendre un outil Adobe officiel (il est en préparation).

5
Mark Essel

Pour PDF en conversion HTML, pdf2htmlEX semble être un très bon outil (en regardant tous les exemples/exemples):

https://github.com/coolwanglu/pdf2htmlEX

3
amit_saxena

http://wvware.sourceforge.net/

wvHtml: convertissez votre document Word en HTML4.0.

Peut-être: http://www.abisource.com/ mais dans ce cas, cela ressemble à "open doc"> "export html" manuellement, peut-être que les plugins aident. Je ne sais pas, que voulez-vous dire: "logiciel source qui peut convertir".

Ou ceci: http://www.zope.org/Members/sf/NuxDocument

Le pdftohtml vous donnera également une sortie de page html, mais vous devrez travailler sur son interface graphique, car il ne semble pas très interactif.

1
PF4Public

Pour le pdf il y a un projet open source démarré par mozilla et c'est très bien: https://github.com/mozilla/pdf.js/

Vous pouvez voir un exemple du monde bonjour: https://github.com/mozilla/pdf.js/tree/master/examples/helloworld

Pour le reste des types de documents, je pense que LibreOffice a déclaré qu'il envisageait de créer quelque chose en html5, mais jusqu'à présent, rien n'a été fait.

1
Doua Beri