bs4를 이용한 웹페이지 크롤링 중 특정 태그 이하의 내용을 삭제하고 싶을 때는
decompose() 를 활용할 수 있다.
url 을 불러오고, soup 로 파싱한다.
import requests
from bs4 import BeautifulSoup
url="불러오고자 하는 url"
req = requests.get(url)
soup = BeautifulSoup(req.text, "lxml")
파싱 후 지우고 싶은 태그를 find를 통해서 찾아낸다.
soup.find("태그", attrs={"하위태그":"하위태그상세"})
지우고 싶은 태그를 찾아서 확인한 후, .decompose() 하면 바로 soup 에서 해당 태그가 삭제된다.
soup.find("태그", attrs={"하위태그":"하위태그상세"}).decompose()
위와 같이 입력하면 soup 에서 해당 태그가 삭제되고,
print(soup) 을 통해 해당 태그가 지워진 것을 확인할 수 있다.
반응형
'도구들 > R,파이썬' 카테고리의 다른 글
[파이썬] 파이썬 연결자 콤마(,)와 더하기(플러스)(+)의 차이 (0) | 2022.06.08 |
---|---|
[파이썬] 판다스 csv 불러올때 인코딩 에러('utf-8' codec can't decode ) (0) | 2022.05.13 |
[파이썬] module 'html5lib.treebuilders' has no attribute '_base' 에러 해결 (1) | 2022.04.25 |
[파이썬] 대용량 텍스트 파일(txt) 에서 원하는 정보 추출하기 (0) | 2022.04.12 |
[파이썬] 텍스트 파일(txt) 읽고 쓰기(readline) (0) | 2022.04.12 |