웹크롤링 3

[파이썬] 뷰티풀수프bs4 - html 태그 삭제하기(.decompose())

bs4를 이용한 웹페이지 크롤링 중 특정 태그 이하의 내용을 삭제하고 싶을 때는 decompose() 를 활용할 수 있다. url 을 불러오고, soup 로 파싱한다. import requests from bs4 import BeautifulSoup url="불러오고자 하는 url" req = requests.get(url) soup = BeautifulSoup(req.text, "lxml") 파싱 후 지우고 싶은 태그를 find를 통해서 찾아낸다. soup.find("태그", attrs={"하위태그":"하위태그상세"}) 지우고 싶은 태그를 찾아서 확인한 후, .decompose() 하면 바로 soup 에서 해당 태그가 삭제된다. soup.find("태그", attrs={"하위태그":"하위태그상세"})...

[파이썬] 웹사이트 주소 수집하기(url 크롤링) 1. html에서 url 찾아서 파이썬으로 가져오기

requests 로 사이트에 요청을 보내고 Beautifulsoup으로 html을 다루는 방법까지 소개했다. https://ryuhyun.tistory.com/63 [파이썬] 웹 크롤링 시작하기 2. BeautifulSoup로 html 다루기 파이썬 requests 모듈로 웹사이트에 요청을 보내는 방법에 대해 정리한 것에 이어서 웹사이트 내의 정보들을 수집하기 위해서 해당 사이트의 html을 다루는 툴로 BeautifulSoup 모듈을 소개한다. https:// ryuhyun.tistory.com 코로나 확진자 정보 수집을 위해 질병관리청 보도자료 게시글 링크(url)들을 수집하려고 한다. 질병관리청에서는 매일 보도자료를 통해 코로나19 발생과 예방접종 등 관련 현황들에 대해 정보를 공개하고 있다. ht..

[파이썬] 웹 크롤링 시작하기 2. BeautifulSoup로 html 다루기

파이썬 requests 모듈로 웹사이트에 요청을 보내는 방법에 대해 정리한 것에 이어서 웹사이트 내의 정보들을 수집하기 위해서 해당 사이트의 html을 다루는 툴로 BeautifulSoup 모듈을 소개한다. https://ryuhyun.tistory.com/56 [파이썬] requests 모듈로 웹 스크래핑 시작하기 (requests.get()으로 요청 보내기) requests 모듈은 파이썬 웹 스크래핑에서 활용되는 모듈로, http에 응답을 요청해서 받을 수 있다. requests 모듈이 설치되어있는지 확인하고 설치를 진행하기 위해 아래와 같이 설치 명령어 pip install ryuhyun.tistory.com requests 모듈로 해당 사이트로부터 정보를 수집가능한 것을 확인하고, 사이트의 htm..

반응형