Supprimer les balises HTML ne figurant pas dans une liste autorisée d'une chaîne Python

Question

J'ai une chaîne contenant du texte et du HTML. Je souhaite supprimer ou désactiver d'autres balises HTML, telles que <script>, tout en autorisant les autres, afin que je puisse le rendre sur une page Web en toute sécurité. J'ai une liste de balises autorisées, comment puis-je traiter la chaîne pour supprimer les autres balises?

bryan · Accepted Answer

Voici une solution simple utilisant BeautifulSoup :

from bs4 import BeautifulSoup VALID_TAGS = ['strong', 'em', 'p', 'ul', 'li', 'br'] def sanitize_html(value): soup = BeautifulSoup(value) for tag in soup.findAll(True): if tag.name not in VALID_TAGS: tag.hidden = True return soup.renderContents()

Si vous souhaitez également supprimer le contenu des balises non valides, remplacez tag.extract() par tag.hidden.

Vous pouvez également envisager d'utiliser lxml et Tidy .

nosklo · Answer

Utilisation lxml.html.clean ! C'est très facile!

from lxml.html.clean import clean_html print clean_html(html)

Supposons que le code HTML suivant:

html = '''\ <html> <head> <script type="text/javascript" src="evil-site"></script> <link rel="alternate" type="text/rss" src="evil-rss"> <style> body {background-image: url(javascript:do_evil)}; div {color: expression(evil)}; </style> </head> <body onload="evil_function()"> <!-- I am interpreted for EVIL! --> <a href="javascript:evil_function()">a link</a> <a href="#" onclick="evil_function()">another link</a> <p onclick="evil_function()">a paragraph</p> <div style="display: none">secret EVIL!</div> <object> of EVIL! </object> <iframe src="evil-site"></iframe> <form action="evil-site"> Password: <input type="password" name="password"> </form> <blink>annoying EVIL!</blink> <a href="evil-site">spam spam SPAM!</a> <image src="evil!"> </body> </html>'''

Les resultats...

<html> <body> <div> <style>/* deleted */</style> <a href="">a link</a> <a href="#">another link</a> <p>a paragraph</p> <div>secret EVIL!</div> of EVIL! Password: annoying EVIL! <a href="evil-site">spam spam SPAM!</a> <img src="evil!"> </div> </body> </html>

Vous pouvez personnaliser les éléments que vous souhaitez nettoyer et ainsi de suite.

Chris Drost · Answer

Les solutions ci-dessus via Beautiful Soup ne fonctionneront pas. Vous pourriez être en mesure de pirater quelque chose avec Beautiful Soup au-dessus et au-delà d'eux, car Beautiful Soup donne accès à l'arbre d'analyse. Dans un moment, je pense que j'essaierai de résoudre le problème correctement, mais c'est un projet d'une semaine environ, et je n'ai pas de semaine libre bientôt.

Juste pour être précis, non seulement Beautiful Soup lèvera des exceptions pour certaines erreurs d'analyse que le code ci-dessus ne détecte pas; mais aussi, il existe de nombreuses vulnérabilités XSS très réelles qui ne sont pas détectées, comme:

<<script>script> alert("Haha, I hacked your page."); </</script>script>

La meilleure chose à faire est probablement de supprimer le < élément comme <, pour interdire tout HTML, puis utiliser un sous-ensemble restreint comme Markdown pour rendre correctement le formatage. En particulier, vous pouvez également revenir en arrière et réintroduire des bits communs de HTML avec une expression régulière. Voici à quoi ressemble le processus, grosso modo:

_lt_ = re.compile('<') _tc_ = '~(lt)~' # or whatever, so long as markdown doesn't mangle it. _ok_ = re.compile(_tc_ + '(/?(?:u|b|i|em|strong|sup|sub|p|br|q|blockquote|code))>', re.I) _sqrt_ = re.compile(_tc_ + 'sqrt>', re.I) #just to give an example of extending _endsqrt_ = re.compile(_tc_ + '/sqrt>', re.I) #html syntax with your own elements. _tcre_ = re.compile(_tc_) def sanitize(text): text = _lt_.sub(_tc_, text) text = markdown(text) text = _ok_.sub(r'<\1>', text) text = _sqrt_.sub(r'&radic;<span style="text-decoration:overline;">', text) text = _endsqrt_.sub(r'</span>', text) return _tcre_.sub('&lt;', text)

Je n'ai pas encore testé ce code, il peut donc y avoir des bugs. Mais vous voyez l'idée générale: vous devez mettre sur liste noire tout le HTML en général avant de mettre sur liste blanche les choses ok.

Jochen Ritzel · Answer

Voici ce que j'utilise dans mon propre projet. Les éléments/attributs acceptables proviennent de feedparser et BeautifulSoup fait le travail.

from BeautifulSoup import BeautifulSoup acceptable_elements = ['a', 'abbr', 'acronym', 'address', 'area', 'b', 'big', 'blockquote', 'br', 'button', 'caption', 'center', 'cite', 'code', 'col', 'colgroup', 'dd', 'del', 'dfn', 'dir', 'div', 'dl', 'dt', 'em', 'font', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'hr', 'i', 'img', 'ins', 'kbd', 'label', 'legend', 'li', 'map', 'menu', 'ol', 'p', 'pre', 'q', 's', 'samp', 'small', 'span', 'strike', 'strong', 'sub', 'sup', 'table', 'tbody', 'td', 'tfoot', 'th', 'thead', 'tr', 'tt', 'u', 'ul', 'var'] acceptable_attributes = ['abbr', 'accept', 'accept-charset', 'accesskey', 'action', 'align', 'alt', 'axis', 'border', 'cellpadding', 'cellspacing', 'char', 'charoff', 'charset', 'checked', 'cite', 'clear', 'cols', 'colspan', 'color', 'compact', 'coords', 'datetime', 'dir', 'enctype', 'for', 'headers', 'height', 'href', 'hreflang', 'hspace', 'id', 'ismap', 'label', 'lang', 'longdesc', 'maxlength', 'method', 'multiple', 'name', 'nohref', 'noshade', 'nowrap', 'Prompt', 'rel', 'rev', 'rows', 'rowspan', 'rules', 'scope', 'shape', 'size', 'span', 'src', 'start', 'summary', 'tabindex', 'target', 'title', 'type', 'usemap', 'valign', 'value', 'vspace', 'width'] def clean_html( fragment ): while True: soup = BeautifulSoup( fragment ) removed = False for tag in soup.findAll(True): # find all tags if tag.name not in acceptable_elements: tag.extract() # remove the bad ones removed = True else: # it might have bad attributes # a better way to get all attributes? for attr in tag._getAttrMap().keys(): if attr not in acceptable_attributes: del tag[attr] # turn it back to html fragment = unicode(soup) if removed: # we removed tags and tricky can could exploit that! # we need to reparse the html until it stops changing continue # next round return fragment

Quelques petits tests pour s'assurer que cela se comporte correctement:

tests = [ #text should work ('<p>this is text</p>but this too', '<p>this is text</p>but this too'), # make sure we cant exploit removal of tags ('<<script></script>script> alert("Haha, I hacked your page."); <<script></script>/script>', ''), # try the same trick with attributes, gives an Exception ('<div on<script></script>load="alert("Haha, I hacked your page.");">1</div>', Exception), # no tags should be skipped ('<script>bad</script><script>bad</script><script>bad</script>', ''), # leave valid tags but remove bad attributes ('<a href="good" onload="bad" onclick="bad" alt="good">1</div>', '<a href="good" alt="good">1</a>'), ] for text, out in tests: try: res = clean_html(text) assert res == out, "%s => %s != %s" % (text, res, out) except out, e: assert isinstance(e, out), "Wrong exception %r" % e

chuangbo · Answer

Bleach fait mieux avec des options plus utiles. Il est construit sur html5lib et prêt pour la production. Consultez la documentation de bleack.clean fonction. Sa configuration par défaut échappe aux balises dangereuses comme <script> tout en autorisant des balises utiles comme <a>.

import bleach bleach.clean("<script>evil</script> <a href='http://example.com'>example</a>") # '&lt;script&gt;evil&lt;/script&gt; <a href="http://example.com">example</a>'

Kiran Jonnalagadda · Answer

J'ai modifié Bryan 's solution avec BeautifulSoup pour résoudre le problème soulevé par Chris Drost . Un peu grossier, mais fait l'affaire:

from BeautifulSoup import BeautifulSoup, Comment VALID_TAGS = {'strong': [], 'em': [], 'p': [], 'ol': [], 'ul': [], 'li': [], 'br': [], 'a': ['href', 'title'] } def sanitize_html(value, valid_tags=VALID_TAGS): soup = BeautifulSoup(value) comments = soup.findAll(text=lambda text:isinstance(text, Comment)) [comment.extract() for comment in comments] # Some markup can be crafted to slip through BeautifulSoup's parser, so # we run this repeatedly until it generates the same output twice. newoutput = soup.renderContents() while 1: oldoutput = newoutput soup = BeautifulSoup(newoutput) for tag in soup.findAll(True): if tag.name not in valid_tags: tag.hidden = True else: tag.attrs = [(attr, value) for attr, value in tag.attrs if attr in valid_tags[tag.name]] newoutput = soup.renderContents() if oldoutput == newoutput: break return newoutput

Modifier: Mis à jour pour prendre en charge les attributs valides.

codedvillain · Answer

J'utilise FilterHTML . C'est simple et vous permet de définir une liste blanche bien contrôlée, de frotter les URL et même de faire correspondre les valeurs d'attribut avec l'expression régulière ou d'avoir des fonctions de filtrage personnalisées par attribut. S'il est utilisé avec précaution, il pourrait être une solution sûre. Voici un exemple simplifié du fichier Lisezmoi:

import FilterHTML # only allow: # <a> tags with valid href URLs # <img> tags with valid src URLs and measurements whitelist = { 'a': { 'href': 'url', 'target': [ '_blank', '_self' ], 'class': [ 'button' ] }, 'img': { 'src': 'url', 'width': 'measurement', 'height': 'measurement' }, } filtered_html = FilterHTML.filter_html(unfiltered_html, whitelist)

Brian Neal · Answer

Vous pouvez utiliser html5lib , qui utilise une liste blanche pour désinfecter.

Un exemple:

import html5lib from html5lib import sanitizer, treebuilders, treewalkers, serializer def clean_html(buf): """Cleans HTML of dangerous tags and content.""" buf = buf.strip() if not buf: return buf p = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("dom"), tokenizer=sanitizer.HTMLSanitizer) dom_tree = p.parseFragment(buf) walker = treewalkers.getTreeWalker("dom") stream = walker(dom_tree) s = serializer.htmlserializer.HTMLSerializer( omit_optional_tags=False, quote_attr_values=True) return s.render(stream)

ducu · Answer

Je préfère le lxml.html.clean solution, comme nosklo souligne . Voici également pour supprimer certaines balises vides:

from lxml import etree from lxml.html import clean, fromstring, tostring remove_attrs = ['class'] remove_tags = ['table', 'tr', 'td'] nonempty_tags = ['a', 'p', 'span', 'div'] cleaner = clean.Cleaner(remove_tags=remove_tags) def squeaky_clean(html): clean_html = cleaner.clean_html(html) # now remove the useless empty tags root = fromstring(clean_html) context = etree.iterwalk(root) # just the end tag event for action, elem in context: clean_text = elem.text and elem.text.strip(' 	
') if elem.tag in nonempty_tags and \ not (len(elem) or clean_text): # no children nor text elem.getparent().remove(elem) continue elem.text = clean_text # if you want # and if you also wanna remove some attrs: for badattr in remove_attrs: if elem.attrib.has_key(badattr): del elem.attrib[badattr] return tostring(root)