Tester si le tag enfants existe dans beautifulsoup

Question

j'ai un fichier XML avec une structure définie mais un nombre différent de balises, comme

file1.xml:

<document> <subDoc> <id>1</id> <myId>1</myId> </subDoc> </document>

file2.xml:

<document> <subDoc> <id>2</id> </subDoc> </document>

Maintenant, j'aime vérifier si la balise myId se termine. J'ai donc fait ce qui suit:

data = open("file1.xml",'r').read() xml = BeautifulSoup(data) hasAttrBs = xml.document.subdoc.has_attr('myID') hasAttrPy = hasattr(xml.document.subdoc,'myID') hasType = type(xml.document.subdoc.myid)

Le résultat est pour file1.xml:

hasAttrBs -> False hasAttrPy -> True hasType -> <class 'bs4.element.Tag'>

file2.xml:

hasAttrBs -> False hasAttrPy -> True hasType -> <type 'NoneType'>

D'accord, <myId> n'est pas un attribut de <subdoc>.

Mais comment puis-je tester, si un sous-tag existe?

// Edit: Soit dit en passant: je n'aime pas vraiment parcourir tout le sous-doc, car ce sera très lent. J'espère trouver un moyen de diriger l'adresse/demander cet élément.

wpercy · Accepted Answer

Si vous ne connaissez pas la structure du document XML, vous pouvez utiliser la méthode .find() de la soupe. Quelque chose comme ça:

with open("file1.xml",'r') as data, open("file2.xml",'r') as data2: xml = BeautifulSoup(data.read()) xml2 = BeautifulSoup(data2.read()) hasAttrBs = xml.find("myId") hasAttrBs2 = xml2.find("myId")

Si vous connaissez la structure, vous pouvez obtenir l'élément souhaité en accédant au nom de la balise comme un attribut comme celui-ci xml.document.subdoc.myid. Donc, le tout irait quelque chose comme ceci:

with open("file1.xml",'r') as data, open("file2.xml",'r') as data2: xml = BeautifulSoup(data.read()) xml2 = BeautifulSoup(data2.read()) hasAttrBs = xml.document.subdoc.myid hasAttrBs2 = xml2.document.subdoc.myid print hasAttrBs print hasAttrBs2

Impressions

<myid>1</myid> None

ahuigo · Answer

if tag.find('child_tag_name'):

Mona Jalal · Answer

Voici un exemple pour vérifier si la balise h2 existe dans une URL Instagram. J'espère que vous le trouverez utile:

import datetime import urllib import requests from bs4 import BeautifulSoup instagram_url = 'https://www.instagram.com/p/BHijrYFgX2v/?taken-by=findingmero' html_source = requests.get(instagram_url).text soup = BeautifulSoup(html_source, "lxml") if not soup.find('h2'): print("didn't find h2")

chyoo CHENG · Answer

vous pouvez le gérer comme ceci:

for child in xml.document.subdoc.children: if 'myId' == child.name: return True