bs4 2

[파이썬] 뷰티풀수프bs4 - html 태그 삭제하기(.decompose())

bs4를 이용한 웹페이지 크롤링 중 특정 태그 이하의 내용을 삭제하고 싶을 때는 decompose() 를 활용할 수 있다. url 을 불러오고, soup 로 파싱한다. import requests from bs4 import BeautifulSoup url="불러오고자 하는 url" req = requests.get(url) soup = BeautifulSoup(req.text, "lxml") 파싱 후 지우고 싶은 태그를 find를 통해서 찾아낸다. soup.find("태그", attrs={"하위태그":"하위태그상세"}) 지우고 싶은 태그를 찾아서 확인한 후, .decompose() 하면 바로 soup 에서 해당 태그가 삭제된다. soup.find("태그", attrs={"하위태그":"하위태그상세"})...

[파이썬] module 'html5lib.treebuilders' has no attribute '_base' 에러 해결

from bs4 import BeautifulSoup 뷰티풀수프 import 했을 뿐인데.. 아래처럼 전에 안 나오던 에러가 뜬다. module 'html5lib.treebuilders' has no attribute '_base' _html5lib.py 파일에서 에러가 나는 것으로 보이는데.. 예전에 한번 이 에러로 인해서 _html5lib.py 파일 내에 있는 모든 "base" 를 "_base" 로 변경한 기억이 있는데 소용 없었나 보다. 구글링 해보니, bs4를 업그레이드 해보라고 해서 cmd 창을 켜고 아래와 같이 입력했다. pip install --upgrade beautifulsoup4 이렇게 입력하니 업그레이드가 진행되고, beautifulsoup4-4.11.1 버전으로 업그레이드 되었다. ..

반응형