[파이썬] 뷰티풀수프bs4 - html 태그 삭제하기(.decompose())

도구들/R,파이썬

cactus 2022. 4. 25. 22:25

bs4를 이용한 웹페이지 크롤링 중 특정 태그 이하의 내용을 삭제하고 싶을 때는

decompose() 를 활용할 수 있다.

url 을 불러오고, soup 로 파싱한다.

import requests
from bs4 import BeautifulSoup

url="불러오고자 하는 url"
req = requests.get(url)
soup = BeautifulSoup(req.text, "lxml")

파싱 후 지우고 싶은 태그를 find를 통해서 찾아낸다.

soup.find("태그", attrs={"하위태그":"하위태그상세"})

지우고 싶은 태그를 찾아서 확인한 후, .decompose() 하면 바로 soup 에서 해당 태그가 삭제된다.

soup.find("태그", attrs={"하위태그":"하위태그상세"}).decompose()

위와 같이 입력하면 soup 에서 해당 태그가 삭제되고,

print(soup) 을 통해 해당 태그가 지워진 것을 확인할 수 있다.

[파이썬] 파이썬 연결자 콤마(,)와 더하기(플러스)(+)의 차이 (0)	2022.06.08
[파이썬] 판다스 csv 불러올때 인코딩 에러('utf-8' codec can't decode ) (0)	2022.05.13
[파이썬] module 'html5lib.treebuilders' has no attribute '_base' 에러 해결 (1)	2022.04.25
[파이썬] 대용량 텍스트 파일(txt) 에서 원하는 정보 추출하기 (0)	2022.04.12
[파이썬] 텍스트 파일(txt) 읽고 쓰기(readline) (0)	2022.04.12

cactusroom