web-dev-qa-db-fra.com

Existe-t-il un moyen de sauvegarder un document MS Word au format HTML sans les éléments propriétaires de MS?

Donc, normalement, je n'utiliserais pas cette fonctionnalité ("Enregistrer en tant que page Web"), mais j'ai de gros documents de clients qu'ils veulent simplement mettre sur leur site en HTML, et tout mettre en forme à la main semble une perte de temps.

J'ai essayé "enregistrer en tant que page Web" dans Word 2007, mais cela produit toutes sortes de problèmes. En être témoin:

<b style='mso-bidi-font-weight:normal'>
<span style="mso-spacerun: yes">

ainsi qu'un grand bloc d'informations de formatage XML:

<!--[if gte mso 9]><xml>
 <o:DocumentProperties>
 <o:Subject> </o:Subject>
 <o:Author> </o:Author>
 <o:Keywords> </o:Keywords>
 ...

Comme je l'ai dit, tout formater à la main semble une perte de temps, mais la manière dont les exportations des États membres ont actuellement trop cruel. Existe-t-il un moyen d’exporter des documents MS Word au format HTML sans tout cela?

EDIT: Ce document est un document de type charte/règlements et comporte donc plusieurs niveaux de liste imbriquée. Un de mes critères de "réussite" dans cette tentative de conversion est que la hiérarchie des listes est conservée et non ignorée.

5
sequoia mcdowell

Je sais que cela remonte à trois ans, mais je l’ai trouvé en cherchant la même réponse aujourd’hui. Pour Office 2010, il existe de toute façon une option permettant d’enregistrer en tant que "HTML filtré" sans le code Microsoft supplémentaire:

À propos de l'utilisation du HTML filtré

Lorsque vous enregistrez des pages Web ou envoyez des messages électroniques au format HTML avec Microsoft Word, des balises supplémentaires sont ajoutées afin que vous puissiez continuer à utiliser toutes les fonctionnalités de Word pour modifier votre contenu.

Pour réduire la taille des pages Web et des messages électroniques au format HTML, vous pouvez les enregistrer au format HTML filtré afin que les balises utilisées par les programmes Microsoft Office soient supprimées.

Cette fonctionnalité est uniquement recommandée aux auteurs Web expérimentés, concernés par les balises figurant dans leurs fichiers HTML.

Si vous rouvrez une page Web dans Word que vous avez enregistrée au format HTML filtré, votre texte et votre apparence générale sont préservés, mais vous ne pourrez peut-être pas utiliser certaines fonctionnalités de Word de la manière habituelle pour modifier vos fichiers. Par exemple, l'apparence des listes à puces ou numérotées est préservée; Toutefois, certaines fonctionnalités de Word associées aux listes ne seront pas préservées.

Si possible, vous ne devez enregistrer une page Web au format HTML filtré que lorsque vous avez terminé de modifier la page dans Word. Toutefois, si le code HTML sous-jacent de vos pages Web n’est pas important pour vous, vous devez enregistrer vos fichiers en tant que page Web standard.

Si vous devez modifier le fichier ultérieurement, vous pouvez conserver deux fichiers: un au format Word et un au format HTML filtré. Vous pouvez modifier le contenu du document Word, l'enregistrer au format Word pour le modifier ultérieurement, puis enregistrer une copie au format HTML filtré.

2
Alex Laverty

Vous pouvez toujours utiliser une autre application en tant qu'intermédiaire, comme LibreOffice , et l'utiliser pour l'enregistrer en tant que document HTML.

LibreOffice (anciennement OpenOffice , qui est toujours disponible si vous le préférez) génère un code beaucoup plus propre comparativement.

2
Jacob Hume

Cela fait quelque temps que je fais cela, mais je pense que l'exportation de Google Doc en HTML fonctionne mieux que MS Word et que Google Docs lira les documents Word, de sorte que vous pourrez peut-être charger le document dans Google Docs et exportez-le de cette façon.

2
lovefaithswing

Il y a quelques bonnes réponses à cela Quel est le meilleur moyen gratuit de nettoyer Word HTML?

avec HTMLTidy à l'affiche

1
Digital Essence

Essayez d’enregistrer le document Word au format RTF, puis de l’exporter au format HTML. Espérons que le document RTF ne contienne pas toute la complexité requise par le document Word et conduira à un langage HTML plus simple.

0
Jacob