파이썬 18

[파이썬] module 'html5lib.treebuilders' has no attribute '_base' 에러 해결

from bs4 import BeautifulSoup 뷰티풀수프 import 했을 뿐인데.. 아래처럼 전에 안 나오던 에러가 뜬다. module 'html5lib.treebuilders' has no attribute '_base' _html5lib.py 파일에서 에러가 나는 것으로 보이는데.. 예전에 한번 이 에러로 인해서 _html5lib.py 파일 내에 있는 모든 "base" 를 "_base" 로 변경한 기억이 있는데 소용 없었나 보다. 구글링 해보니, bs4를 업그레이드 해보라고 해서 cmd 창을 켜고 아래와 같이 입력했다. pip install --upgrade beautifulsoup4 이렇게 입력하니 업그레이드가 진행되고, beautifulsoup4-4.11.1 버전으로 업그레이드 되었다. ..

[파이썬] 대용량 텍스트 파일(txt) 에서 원하는 정보 추출하기

https://ryuhyun.tistory.com/64 건축행정데이터(세움터) - 전국 건축물대장 표제부 다운받고 확인하기 세움터는 국토교통부 녹색건축과의 건축행정시스템으로, 건축인허가 현황과 건축물대장 자료를 제공하고 있다. 건축데이터 민간개방 시스템에서 월 단위로 대용량 원시데이터를 제공한다. 건 ryuhyun.tistory.com 건축데이터 민간개방 시스템에서 다운받은 전국 표제부 데이터가 2기가가 넘는 관계로.. 메모장에서 열리지 않는다. 하지만 여기서 특정 조건에 해당하는 표제부 정보를 추출하고자 할 때 파이썬을 활용할 수 있다. 나는 전국 표제부 데이터에서 서울시의 표제부 정보만을 추출하고자 한다. 파이썬에 원본 txt 파일을 'r' 로 불러오고, (f 변수로 불러옴) 결과 파일을 저장할 tx..

[파이썬] 텍스트 파일(txt) 읽고 쓰기(readline)

텍스트 파일이 대용량이거나 해서 메모장에서 열리지 않는 경우가 있다. 그럴 때 파일 내용의 일부를 파이썬에서 확인해보는 방법이 있다. 파이썬에서 텍스트 파일을 읽으려면 일단 먼저 open 을 이용해서 파일을 연다. 건축물 표제부 데이터를 "sample.txt" 라는 파일로 임의로 저장했고, 이 파일을 f 변수에 저장해서 열어보려고 한다. 파일을 읽을 때는 'r' 을 인자로 추가한다. f=open('sample.txt','r') 파일이 읽어진 것을 주피터 노트북 내에서 확인할 때는 readline, readlines 를 활용할 수 있다. readline은 첫 줄만 읽고, readllines는 모든 줄을 읽는다. 아래와 같이 입력해서 f 변수에서 라인을 읽어낸다. f.readline() 텍스트 파일에 쓸 때..

[파이썬] 웹사이트 주소 수집하기(url 크롤링) 1. html에서 url 찾아서 파이썬으로 가져오기

requests 로 사이트에 요청을 보내고 Beautifulsoup으로 html을 다루는 방법까지 소개했다. https://ryuhyun.tistory.com/63 [파이썬] 웹 크롤링 시작하기 2. BeautifulSoup로 html 다루기 파이썬 requests 모듈로 웹사이트에 요청을 보내는 방법에 대해 정리한 것에 이어서 웹사이트 내의 정보들을 수집하기 위해서 해당 사이트의 html을 다루는 툴로 BeautifulSoup 모듈을 소개한다. https:// ryuhyun.tistory.com 코로나 확진자 정보 수집을 위해 질병관리청 보도자료 게시글 링크(url)들을 수집하려고 한다. 질병관리청에서는 매일 보도자료를 통해 코로나19 발생과 예방접종 등 관련 현황들에 대해 정보를 공개하고 있다. ht..

[파이썬] 웹 크롤링 시작하기 2. BeautifulSoup로 html 다루기

파이썬 requests 모듈로 웹사이트에 요청을 보내는 방법에 대해 정리한 것에 이어서 웹사이트 내의 정보들을 수집하기 위해서 해당 사이트의 html을 다루는 툴로 BeautifulSoup 모듈을 소개한다. https://ryuhyun.tistory.com/56 [파이썬] requests 모듈로 웹 스크래핑 시작하기 (requests.get()으로 요청 보내기) requests 모듈은 파이썬 웹 스크래핑에서 활용되는 모듈로, http에 응답을 요청해서 받을 수 있다. requests 모듈이 설치되어있는지 확인하고 설치를 진행하기 위해 아래와 같이 설치 명령어 pip install ryuhyun.tistory.com requests 모듈로 해당 사이트로부터 정보를 수집가능한 것을 확인하고, 사이트의 htm..

[파이썬] 웹 크롤링 시작하기 1. requests 모듈로 요청 보내기

requests 모듈은 파이썬 웹 스크래핑에서 활용되는 모듈로, http에 응답을 요청해서 받을 수 있다. requests 모듈이 설치되어있는지 확인하고 설치를 진행하기 위해 아래와 같이 설치 명령어 pip install 로 확인해본다. pip install requests requests 모듈이 설치되어있지 않다면 설치가 진행되며, 이미 설치된 경우는 Requrement already satisfied.. 이하의 메세지가 뜬다. requests 모듈이 잘 설치되었다면, import 해서 모듈을 불러온다. import requests requests.get() 을 사용해서 요청을 보낼 수 있다. 어떤 사이트에 요청을 보내 볼까? 코로나 관련 정보 수집을 위해, 질병관리청에 요청을 보내보고자 한다. 질병관..

[python] 파이썬 주피터 노트북 시작해보기(ipynb 파일)

아나콘다 및 주피터 노트북 설치가 완료되었다면, 시작 메뉴에서 jupyter notebook을 검색해서 실행할 수 있다. 주피터 노트북이 실행되면, 실행을 위한 커맨드 창이 나타나며 자동적으로 크롬 브라우저에서 주피터 노트북이 열린다. 커맨드 창은 주피터 노트북을 실행하는 동안에 계속 켜져 있어야 한다. 스크립트의 저장과 실행 현황을 확인할 수 있다. 기본 폴더는 C드라이브의 사용자 이하 폴더로 지정되어 있는데, (보통 "C:\Users\사용자계정" 폴더) 작업하기를 원하는 폴더로 이동할 수 있고 작업을 진행할 폴더 또한 생성할 수 있다. 우측 상단의 New 버튼을 눌러서, 파이썬 코드를 입력할 노트북(Python 3) 또는 텍스트 파일, 폴더, 터미널까지 생성할 수 있다. Python 3 버튼을 눌러 ..

파이썬(아나콘다) 다운로드, 설치시 PATH 지정

파이썬 일반 다운로드 시의 PATH 지정과, 파이썬 패키지들을 포함하고 있는 아나콘다 설치를 이용하는 두 가지의 경우에 대해 소개한다. 1. 파이썬 일반 다운로드 파이썬 공식 사이트에서 최신 버전, 구 버전 모두 다운로드할 수 있다. OS 등 컴퓨터 사양에 맞는 3.x 버전을 다운받도록 한다. 윈도우 비트는 "내 컴퓨터"를 우클릭해서 속성을 클릭하면 시스템 종류에서 확인할 수 있다. 최근 거의 대부분의 pc는 64비트 운영 체제이다. https://www.python.org/downloads/ Download Python The official home of the Python Programming Language www.python.org 다운로드 파일을 실행해서 설치를 진행하는 첫 화면에서, 하단에 ..

반응형