Comment décompresser des entités de caractères HTML en Java?

Question

En gros, j'aimerais décoder un document HTML donné et remplacer tous les caractères spéciaux, tels que " " -> " ", ">" -> ">".

En .NET, nous pouvons utiliser HttpUtility.HtmlDecode.

Quelle est la fonction équivalente en Java?

Kevin Hakanson · Accepted Answer

J'ai utilisé Apache Commons StringEscapeUtils.unescapeHtml4 () pour cela:

Unescapes une chaîne contenant une entité échappe à une chaîne contenant les caractères Unicode réels correspondant aux échappements. Prend en charge les entités HTML 4.0.

Dale · Answer

Les bibliothèques mentionnées dans d’autres réponses sont de bonnes solutions, mais si vous creusez déjà dans le monde réel dans votre projet, le projet Jsoup a beaucoup plus à offrir que de simplement gérer "esperluette livre FFFF point-virgule" choses.

// textValue: <p>This is a&nbsp;sample. \"Granny\" Smith &#8211;.</p>
 // becomes this: This is a sample. "Granny" Smith –. // with one line of code: // Jsoup.parse(textValue).getText(); // for older versions of Jsoup Jsoup.parse(textValue).text(); // Another possibility may be the static unescapeEntities method: boolean strictMode = true; String unescapedString = org.jsoup.parser.Parser.unescapeEntities(textValue, strictMode);

Et vous obtenez également une API pratique pour extraire et manipuler des données, en utilisant le meilleur des méthodes DOM, CSS et jquery. C'est open source et la licence MIT.

Nick Frolov · Answer

J'ai essayé Apache Commons StringEscapeUtils.unescapeHtml3 () dans mon projet, mais je n'étais pas satisfait de ses performances. Il s'avère que cela fait beaucoup d'opérations inutiles. D'une part, il alloue un StringWriter pour chaque appel, même s'il n'y a rien à décompresser dans la chaîne. J'ai réécrit ce code différemment, cela fonctionne maintenant beaucoup plus vite. Quiconque trouve cela dans Google est le bienvenu.

Le code suivant supprime tous les symboles HTML 3 et les échappements numériques (équivalent à Apache unescapeHtml3). Vous pouvez simplement ajouter d'autres entrées à la carte si vous avez besoin de HTML 4.

package com.example; import Java.io.StringWriter; import Java.util.HashMap; public class StringUtils { public static final String unescapeHtml3(final String input) { StringWriter writer = null; int len = input.length(); int i = 1; int st = 0; while (true) { // look for '&' while (i < len && input.charAt(i-1) != '&') i++; if (i >= len) break; // found '&', look for ';' int j = i; while (j < len && j < i + MAX_ESCAPE + 1 && input.charAt(j) != ';') j++; if (j == len || j < i + MIN_ESCAPE || j == i + MAX_ESCAPE + 1) { i++; continue; } // found escape if (input.charAt(i) == '#') { // numeric escape int k = i + 1; int radix = 10; final char firstChar = input.charAt(k); if (firstChar == 'x' || firstChar == 'X') { k++; radix = 16; } try { int entityValue = Integer.parseInt(input.substring(k, j), radix); if (writer == null) writer = new StringWriter(input.length()); writer.append(input.substring(st, i - 1)); if (entityValue > 0xFFFF) { final char[] chrs = Character.toChars(entityValue); writer.write(chrs[0]); writer.write(chrs[1]); } else { writer.write(entityValue); } } catch (NumberFormatException ex) { i++; continue; } } else { // named escape CharSequence value = lookupMap.get(input.substring(i, j)); if (value == null) { i++; continue; } if (writer == null) writer = new StringWriter(input.length()); writer.append(input.substring(st, i - 1)); writer.append(value); } // skip escape st = j + 1; i = st; } if (writer != null) { writer.append(input.substring(st, len)); return writer.toString(); } return input; } private static final String[][] ESCAPES = { {"\"", "quot"}, // " - double-quote {"&", "amp"}, // & - ampersand {"<", "lt"}, // < - less-than {">", "gt"}, // > - greater-than // Mapping to escape ISO-8859-1 characters to their named HTML 3.x equivalents. {"\u00A0", "nbsp"}, // non-breaking space {"\u00A1", "iexcl"}, // inverted exclamation mark {"\u00A2", "cent"}, // cent sign {"\u00A3", "pound"}, // pound sign {"\u00A4", "curren"}, // currency sign {"\u00A5", "yen"}, // yen sign = yuan sign {"\u00A6", "brvbar"}, // broken bar = broken vertical bar {"\u00A7", "sect"}, // section sign {"\u00A8", "uml"}, // diaeresis = spacing diaeresis {"\u00A9", "copy"}, // © - copyright sign {"\u00AA", "ordf"}, // feminine ordinal indicator {"\u00AB", "laquo"}, // left-pointing double angle quotation mark = left pointing guillemet {"\u00AC", "not"}, // not sign {"\u00AD", "shy"}, // soft hyphen = discretionary hyphen {"\u00AE", "reg"}, // ® - registered trademark sign {"\u00AF", "macr"}, // macron = spacing macron = overline = APL overbar {"\u00B0", "deg"}, // degree sign {"\u00B1", "plusmn"}, // plus-minus sign = plus-or-minus sign {"\u00B2", "sup2"}, // superscript two = superscript digit two = squared {"\u00B3", "sup3"}, // superscript three = superscript digit three = cubed {"\u00B4", "acute"}, // acute accent = spacing acute {"\u00B5", "micro"}, // micro sign {"\u00B6", "para"}, // pilcrow sign = paragraph sign {"\u00B7", "middot"}, // middle dot = Georgian comma = Greek middle dot {"\u00B8", "cedil"}, // cedilla = spacing cedilla {"\u00B9", "sup1"}, // superscript one = superscript digit one {"\u00BA", "ordm"}, // masculine ordinal indicator {"\u00BB", "raquo"}, // right-pointing double angle quotation mark = right pointing guillemet {"\u00BC", "frac14"}, // vulgar fraction one quarter = fraction one quarter {"\u00BD", "frac12"}, // vulgar fraction one half = fraction one half {"\u00BE", "frac34"}, // vulgar fraction three quarters = fraction three quarters {"\u00BF", "iquest"}, // inverted question mark = turned question mark {"\u00C0", "Agrave"}, // А - uppercase A, Grave accent {"\u00C1", "Aacute"}, // Б - uppercase A, acute accent {"\u00C2", "Acirc"}, // В - uppercase A, circumflex accent {"\u00C3", "Atilde"}, // Г - uppercase A, tilde {"\u00C4", "Auml"}, // Д - uppercase A, umlaut {"\u00C5", "Aring"}, // Е - uppercase A, ring {"\u00C6", "AElig"}, // Ж - uppercase AE {"\u00C7", "Ccedil"}, // З - uppercase C, cedilla {"\u00C8", "Egrave"}, // И - uppercase E, Grave accent {"\u00C9", "Eacute"}, // Й - uppercase E, acute accent {"\u00CA", "Ecirc"}, // К - uppercase E, circumflex accent {"\u00CB", "Euml"}, // Л - uppercase E, umlaut {"\u00CC", "Igrave"}, // М - uppercase I, Grave accent {"\u00CD", "Iacute"}, // Н - uppercase I, acute accent {"\u00CE", "Icirc"}, // О - uppercase I, circumflex accent {"\u00CF", "Iuml"}, // П - uppercase I, umlaut {"\u00D0", "ETH"}, // Р - uppercase Eth, Icelandic {"\u00D1", "Ntilde"}, // С - uppercase N, tilde {"\u00D2", "Ograve"}, // Т - uppercase O, Grave accent {"\u00D3", "Oacute"}, // У - uppercase O, acute accent {"\u00D4", "Ocirc"}, // Ф - uppercase O, circumflex accent {"\u00D5", "Otilde"}, // Х - uppercase O, tilde {"\u00D6", "Ouml"}, // Ц - uppercase O, umlaut {"\u00D7", "times"}, // multiplication sign {"\u00D8", "Oslash"}, // Ш - uppercase O, slash {"\u00D9", "Ugrave"}, // Щ - uppercase U, Grave accent {"\u00DA", "Uacute"}, // Ъ - uppercase U, acute accent {"\u00DB", "Ucirc"}, // Ы - uppercase U, circumflex accent {"\u00DC", "Uuml"}, // Ь - uppercase U, umlaut {"\u00DD", "Yacute"}, // Э - uppercase Y, acute accent {"\u00DE", "THORN"}, // Ю - uppercase THORN, Icelandic {"\u00DF", "szlig"}, // Я - lowercase sharps, German {"\u00E0", "agrave"}, // а - lowercase a, Grave accent {"\u00E1", "aacute"}, // б - lowercase a, acute accent {"\u00E2", "acirc"}, // в - lowercase a, circumflex accent {"\u00E3", "atilde"}, // г - lowercase a, tilde {"\u00E4", "auml"}, // д - lowercase a, umlaut {"\u00E5", "aring"}, // е - lowercase a, ring {"\u00E6", "aelig"}, // ж - lowercase ae {"\u00E7", "ccedil"}, // з - lowercase c, cedilla {"\u00E8", "egrave"}, // и - lowercase e, Grave accent {"\u00E9", "eacute"}, // й - lowercase e, acute accent {"\u00EA", "ecirc"}, // к - lowercase e, circumflex accent {"\u00EB", "euml"}, // л - lowercase e, umlaut {"\u00EC", "igrave"}, // м - lowercase i, Grave accent {"\u00ED", "iacute"}, // н - lowercase i, acute accent {"\u00EE", "icirc"}, // о - lowercase i, circumflex accent {"\u00EF", "iuml"}, // п - lowercase i, umlaut {"\u00F0", "eth"}, // р - lowercase eth, Icelandic {"\u00F1", "ntilde"}, // с - lowercase n, tilde {"\u00F2", "ograve"}, // т - lowercase o, Grave accent {"\u00F3", "oacute"}, // у - lowercase o, acute accent {"\u00F4", "ocirc"}, // ф - lowercase o, circumflex accent {"\u00F5", "otilde"}, // х - lowercase o, tilde {"\u00F6", "ouml"}, // ц - lowercase o, umlaut {"\u00F7", "divide"}, // division sign {"\u00F8", "oslash"}, // ш - lowercase o, slash {"\u00F9", "ugrave"}, // щ - lowercase u, Grave accent {"\u00FA", "uacute"}, // ъ - lowercase u, acute accent {"\u00FB", "ucirc"}, // ы - lowercase u, circumflex accent {"\u00FC", "uuml"}, // ь - lowercase u, umlaut {"\u00FD", "yacute"}, // э - lowercase y, acute accent {"\u00FE", "thorn"}, // ю - lowercase thorn, Icelandic {"\u00FF", "yuml"}, // я - lowercase y, umlaut }; private static final int MIN_ESCAPE = 2; private static final int MAX_ESCAPE = 6; private static final HashMap<String, CharSequence> lookupMap; static { lookupMap = new HashMap<String, CharSequence>(); for (final CharSequence[] seq : ESCAPES) lookupMap.put(seq[1].toString(), seq[0]); } }

Stephan · Answer

La bibliothèque suivante peut également être utilisée pour l'échappement HTML en Java: nbescape .

HTML peut être échappé de cette façon:

final String unescapedText = HtmlEscape.unescapeHtml(escapedText);

tk_ · Answer

Cela a fait le travail pour moi,

import org.Apache.commons.lang.StringEscapeUtils; ... String decodedXML= StringEscapeUtils.unescapeHtml(encodedXML);

ou

import org.Apache.commons.lang3.StringEscapeUtils; ... String decodedXML= StringEscapeUtils.unescapeHtml4(encodedXML);

J'espère que cela t'aides :)

Horcrux7 · Answer

Une solution très simple mais inefficace sans aucune bibliothèque externe est:

public static String unescapeHtml3( String str ) { try { HTMLDocument doc = new HTMLDocument(); new HTMLEditorKit().read( new StringReader( "<html><body>" + str ), doc, 0 ); return doc.getText( 1, doc.getLength() ); } catch( Exception ex ) { return str; } }

Cela ne devrait être utilisé que si vous avez seulement un petit nombre de chaînes à décoder.

mike oganyan · Answer

Le moyen le plus fiable est avec

String cleanedString = StringEscapeUtils.unescapeHtml4(originalString);

de org.Apache.commons.lang3.StringEscapeUtils.

Et pour échapper aux espaces blancs

cleanedString = cleanedString.trim();

Cela garantira que les espaces dus au copier-coller dans les formulaires Web ne seront pas conservés dans la base de données.

Luiz dev · Answer

Dans mon cas, j'utilise la méthode replace en testant chaque entité dans chaque variable, mon code ressemble à ceci:

text = text.replace("&Ccedil;", "Ç"); text = text.replace("&ccedil;", "ç"); text = text.replace("&Aacute;", "Á"); text = text.replace("&Acirc;", "Â"); text = text.replace("&Atilde;", "Ã"); text = text.replace("&Eacute;", "É"); text = text.replace("&Ecirc;", "Ê"); text = text.replace("&Iacute;", "Í"); text = text.replace("&Ocirc;", "Ô"); text = text.replace("&Otilde;", "Õ"); text = text.replace("&Oacute;", "Ó"); text = text.replace("&Uacute;", "Ú"); text = text.replace("&aacute;", "á"); text = text.replace("&acirc;", "â"); text = text.replace("&atilde;", "ã"); text = text.replace("&eacute;", "é"); text = text.replace("&ecirc;", "ê"); text = text.replace("&iacute;", "í"); text = text.replace("&ocirc;", "ô"); text = text.replace("&otilde;", "õ"); text = text.replace("&oacute;", "ó"); text = text.replace("&uacute;", "ú");

Dans mon cas, cela a très bien fonctionné.

Joost · Answer

Pensez à utiliser la classe HtmlManipulator Java. Vous devrez peut-être ajouter des éléments (toutes les entités ne sont pas dans la liste).

Les Apache Commons StringEscapeUtils proposés par Kevin Hakanson ne fonctionnaient pas à 100% pour moi; plusieurs entités comme & # 145 (guillemets simples à gauche) ont été traduites en quelque sorte. J'ai aussi essayé org.jsoup et j'ai eu le même problème.