도구들/R,파이썬

[파이썬] 뷰티풀수프bs4 - html 태그 삭제하기(.decompose())

cactus 2022. 4. 25. 22:25

bs4를 이용한 웹페이지 크롤링 중 특정 태그 이하의 내용을 삭제하고 싶을 때는

decompose() 를 활용할 수 있다.

 

url 을 불러오고, soup 로 파싱한다.

import requests
from bs4 import BeautifulSoup

url="불러오고자 하는 url"
req = requests.get(url)
soup = BeautifulSoup(req.text, "lxml")

 

파싱 후 지우고 싶은 태그를 find를 통해서 찾아낸다.

soup.find("태그", attrs={"하위태그":"하위태그상세"})

지우고 싶은 태그를 찾아서 확인한 후, .decompose() 하면 바로 soup 에서 해당 태그가 삭제된다.

soup.find("태그", attrs={"하위태그":"하위태그상세"}).decompose()

위와 같이 입력하면 soup 에서 해당 태그가 삭제되고,

print(soup) 을 통해 해당 태그가 지워진 것을 확인할 수 있다.

반응형