web-dev-qa-db-fra.com

Tester si un attribut est présent dans une balise dans BeautifulSoup

Je voudrais obtenir tous les <script> balises dans un document, puis traitez chacune en fonction de la présence (ou de l'absence) de certains attributs.

Par exemple, pour chaque <script> tag, si l'attribut for est présent, faites quelque chose; sinon si l'attribut bar est présent, faites autre chose.

Voici ce que je fais actuellement:

outputDoc = BeautifulSoup(''.join(output))
scriptTags = outputDoc.findAll('script', attrs = {'for' : True})

Mais de cette façon, je filtre tous les <script> tags avec l'attribut for ... mais j'ai perdu les autres (ceux sans l'attribut for).

55
LB40

Si je comprends bien, vous voulez juste toutes les balises de script, puis recherchez-y certains attributs?

scriptTags = outputDoc.findAll('script')
for script in scriptTags:
    if script.has_attr('some_attribute'):
        do_something()        
76
Lucas S.

Pour référence future, has_key a été déprécié est beautifulsoup 4. Maintenant, vous devez utiliser has_attr

scriptTags = outputDoc.findAll('script')
  for script in scriptTags:
    if script.has_attr('some_attribute'):
      do_something()  
29
miah

Vous n'avez pas besoin de lambdas pour filtrer par attribut, vous devez simplement définir src=True etc..:

soup = bs4.BeautifulSoup(html)

# Find all with a specific attribute

tags = soup.find_all(src=True)
tags = soup.select("[src]")

# Find all meta with either name or http-equiv attribute.

soup.select("meta[name],meta[http-equiv]")

# find any tags with any name or source attribute.

soup.select("[name], [src]")

# find first/any script with a src attribute.

tag = soup.find('script', src=True)
tag = soup.select_one("script[src]")

# find all tags with a name attribute beginning with foo
# or any src beginning with /path
soup.select("[name^=foo], [src^=/path]")

# find all tags with a name attribute that contains foo
# or any src containing with whatever
soup.select("[name*=foo], [src*=whatever]")

# find all tags with a name attribute that endwith foo
# or any src that ends with  whatever
soup.select("[name$=foo], [src$=whatever]")

Vous pouvez également utiliser re avec find/find_all etc.:

import re
# starting with
soup.find_all("script", src=re.compile("^whatever"))
# contains
soup.find_all("script", src=re.compile("whatever"))
# ends with 
soup.find_all("script", src=re.compile("whatever$"))
18
Padraic Cunningham

Si vous avez seulement besoin d'obtenir des balises avec des attributs, vous pouvez utiliser lambda:

soup = bs4.BeautifulSoup(YOUR_CONTENT)
  • Tags avec attribut
tags = soup.find_all(lambda tag: 'src' in tag.attrs)

OR

tags = soup.find_all(lambda tag: tag.has_attr('src'))
  • Balise spécifique avec attribut
tag = soup.find(lambda tag: tag.name == 'script' and 'src' in tag.attrs)
  • Etc ...

J'ai pensé que cela pourrait être utile.

12
SomeGuest

vous pouvez vérifier si certains attributs sont présents

 scriptTags = outputDoc.findAll ('script', some_attribute = True) 
 pour le script dans scriptTags: 
 do_something () 
2
Charles Ma

En utilisant le module pprint, vous pouvez examiner le contenu d'un élément.

from pprint import pprint

pprint(vars(element))

L'utiliser sur un élément bs4 affichera quelque chose de similaire à ceci:

{'attrs': {u'class': [u'pie-productname', u'size-3', u'name', u'global-name']},
 'can_be_empty_element': False,
 'contents': [u'\n\t\t\t\tNESNA\n\t'],
 'hidden': False,
 'name': u'span',
 'namespace': None,
 'next_element': u'\n\t\t\t\tNESNA\n\t',
 'next_sibling': u'\n',
 'parent': <h1 class="pie-compoundheader" itemprop="name">\n<span class="pie-description">Bedside table</span>\n<span class="pie-productname size-3 name global-name">\n\t\t\t\tNESNA\n\t</span>\n</h1>,
 'parser_class': <class 'bs4.BeautifulSoup'>,
 'prefix': None,
 'previous_element': u'\n',
 'previous_sibling': u'\n'}

Pour accéder à un attribut - disons la liste des classes - utilisez ce qui suit:

class_list = element.attrs.get('class', [])

Vous pouvez filtrer les éléments en utilisant cette approche:

for script in soup.find_all('script'):
    if script.attrs.get('for'):
        # ... Has 'for' attr
    Elif "myClass" in script.attrs.get('class', []):
        # ... Has class "myClass"
    else: 
        # ... Do something else
0
Adam Salma