web-dev-qa-db-fra.com

Convertir PDF au fichier HTML API Java

Je veux convertir un fichier pdf en fichier html à l'aide d'une application Java. Le fichier PDF contient des images, du texte, etc. Quelqu'un connaît-il une bonne API Java? (merci de ne pas suggérer Aspose). J'ai essayé Apache PDFBox mais je n’étais pas satisfait

10
user3505725

CSSBox Pdf2Dom est une bibliothèque Java qui permet (entre autres choses) de convertir PDF en HTML. La distribution contient même un outil de ligne de commande PDFToHTML basé sur cette bibliothèque afin que vous puissiez vérifier si les résultats correspondent à vos besoins. Cependant, convertir PDF en HTML est toujours délicat, comme indiqué ci-dessus. Les résultats dépendent de la complexité et de la structure du fichier PDF, de sorte que différents outils peuvent convenir à différents fichiers PDF.

7
radkovo

Check-out 

JPedal , il gère très bien les polices incorporées, mais pas gratuitement.

IcePDF , il est gratuit mais il peut à tout le moins extraire du texte/des images ou restituer le PDF en une image.

public class QHyperArticleHtmlBuilder extends QHtmlBuilder {
    QStyle anchorStyle = createStyle("anchorStyle", a);
    QStyle sectionStyle = createStyle("sectionStyle", div);
    QStyle subsectionStyle = createStyle("subsectionStyle", div);
    ...    
    public String buildSubSectionHeading(String anchorName, String text) {
        return buildAnchorHeading(subsectionStyle, anchorName, text);
    }

    protected String buildAnchorHeading(QStyle divStyle, 
            String anchorName, String text) {
        QMutableElement element = create(p);
        element.add(br);
        element.add(create(a, anchorStyle, name.create(anchorName)))
        .add(create(div, divStyle, text));
        return element.buildHtml();
    }

    public String buildLink(String url, String label) {
        QMutableElement element = create(a, anchorStyle, href.create(url));
        element.add(create(span, underlineStyle))
        .add(create(span, linkStyle, label));
        return element.buildHtml();
    }
}


pre.javaStyle {
  font-family: courier new, courier, mono;
  background-color: #fbfbfb;
  font-size: 11pt;
  width: 800px;
  border: dashed 1px;
  border-color: lightgray;
  padding-left: 4px;
}

Ressources ici

1
4dgaurav

Vous pouvez essayer d’utiliser Print2Flash: www.print2flash.com Il peut convertir en HTML à partir de Java non seulement des fichiers PDF, mais aussi d’autres types de documents: documents Office, dessins AutoCAD, etc. Il a résolu tous les besoins en matière de publication de documents pour le site Web de notre société.

0
alex

Essayez notre bibliothèque Java appelée jPDFWeb qui préserve les polices et la résolution de l’image du PDF original. Vous pouvez télécharger votre propre PDF et essayer la démonstration en direct. 

https://www.qoppa.com/pdfhtml/

0
Leila Holmann