도구들 58

[엑셀] 끝에서부터 n번째 글자 지우기,마지막 글자 지우기,첫 글자 지우기(LEFT,RIGHT, LEN 함수)

아래 글에서 RIGHT, LEFT, MID 함수를 통해 셀의 특정 번째 값을 추출하는 방법을 소개한 바 있는데, https://ryuhyun.tistory.com/52?category=1035446 [엑셀] 셀 텍스트 왼쪽으로부터, 오른쪽으로부터, 중간에서 일부 추출하기(LEFT, RIGHT, MID 함수) 엑셀에서 각 셀의 값을 위치 인덱싱을 통해 추출하는 방법이다. LEFT 함수는 셀의 왼쪽 끝으로부터 세고, RIGHT 함수는 오른쪽 끝으로부터, MID 함수는 중간부터 센다. LEFT, RIGHT 함수는 양 끝으로부 ryuhyun.tistory.com 추출한 글자를 제거하는 방법에도 활용할 수 있다. 특정 셀의 끝(왼쪽)에서부터 n번째 글자를 지우기 위해서는, 특정 셀에 있는 글자 수를 먼저 센 다음..

도구들/엑셀 2022.05.10

[파이썬] 뷰티풀수프bs4 - html 태그 삭제하기(.decompose())

bs4를 이용한 웹페이지 크롤링 중 특정 태그 이하의 내용을 삭제하고 싶을 때는 decompose() 를 활용할 수 있다. url 을 불러오고, soup 로 파싱한다. import requests from bs4 import BeautifulSoup url="불러오고자 하는 url" req = requests.get(url) soup = BeautifulSoup(req.text, "lxml") 파싱 후 지우고 싶은 태그를 find를 통해서 찾아낸다. soup.find("태그", attrs={"하위태그":"하위태그상세"}) 지우고 싶은 태그를 찾아서 확인한 후, .decompose() 하면 바로 soup 에서 해당 태그가 삭제된다. soup.find("태그", attrs={"하위태그":"하위태그상세"})...

[파이썬] module 'html5lib.treebuilders' has no attribute '_base' 에러 해결

from bs4 import BeautifulSoup 뷰티풀수프 import 했을 뿐인데.. 아래처럼 전에 안 나오던 에러가 뜬다. module 'html5lib.treebuilders' has no attribute '_base' _html5lib.py 파일에서 에러가 나는 것으로 보이는데.. 예전에 한번 이 에러로 인해서 _html5lib.py 파일 내에 있는 모든 "base" 를 "_base" 로 변경한 기억이 있는데 소용 없었나 보다. 구글링 해보니, bs4를 업그레이드 해보라고 해서 cmd 창을 켜고 아래와 같이 입력했다. pip install --upgrade beautifulsoup4 이렇게 입력하니 업그레이드가 진행되고, beautifulsoup4-4.11.1 버전으로 업그레이드 되었다. ..

[QGIS] shp파일 좌표 확인하고 변환하기, OTF(on the fly) 기능

QGIS 에서는 OTF(온더플라이) 기능을 지원하는데, OTF 란 좌표체계가 서로 다른 파일들을 같은 좌표상에 있는 것처럼 표현하는 기능이다. 좌표가 서로 다른 파일 두 개를 올려보자. (인천 경계 파일과 배경지도로 Daum street map을 활용했다.(TMS for Korea 플러그인 활용)) 웹 - TMS for Korea 에서 다음지도 street map을 불러와 보자. *TMS for Korea 는 '플러그인' 에서 검색해서 다운로드, 다운로드 후 상단 '웹' 메뉴에서 확인 가능) 다음 지도의 좌표정보는 EPSG 5181 임을 오른쪽 하단에서 확인할 수 있다. (EPSG 5181 (Korea 2000 / Central Belt) - GRS80, TM중부) 여기에 인천 경계 파일을 올려보자. O..

도구들/GIS 2022.04.21

[파이썬] 대용량 텍스트 파일(txt) 에서 원하는 정보 추출하기

https://ryuhyun.tistory.com/64 건축행정데이터(세움터) - 전국 건축물대장 표제부 다운받고 확인하기 세움터는 국토교통부 녹색건축과의 건축행정시스템으로, 건축인허가 현황과 건축물대장 자료를 제공하고 있다. 건축데이터 민간개방 시스템에서 월 단위로 대용량 원시데이터를 제공한다. 건 ryuhyun.tistory.com 건축데이터 민간개방 시스템에서 다운받은 전국 표제부 데이터가 2기가가 넘는 관계로.. 메모장에서 열리지 않는다. 하지만 여기서 특정 조건에 해당하는 표제부 정보를 추출하고자 할 때 파이썬을 활용할 수 있다. 나는 전국 표제부 데이터에서 서울시의 표제부 정보만을 추출하고자 한다. 파이썬에 원본 txt 파일을 'r' 로 불러오고, (f 변수로 불러옴) 결과 파일을 저장할 tx..

[파이썬] 텍스트 파일(txt) 읽고 쓰기(readline)

텍스트 파일이 대용량이거나 해서 메모장에서 열리지 않는 경우가 있다. 그럴 때 파일 내용의 일부를 파이썬에서 확인해보는 방법이 있다. 파이썬에서 텍스트 파일을 읽으려면 일단 먼저 open 을 이용해서 파일을 연다. 건축물 표제부 데이터를 "sample.txt" 라는 파일로 임의로 저장했고, 이 파일을 f 변수에 저장해서 열어보려고 한다. 파일을 읽을 때는 'r' 을 인자로 추가한다. f=open('sample.txt','r') 파일이 읽어진 것을 주피터 노트북 내에서 확인할 때는 readline, readlines 를 활용할 수 있다. readline은 첫 줄만 읽고, readllines는 모든 줄을 읽는다. 아래와 같이 입력해서 f 변수에서 라인을 읽어낸다. f.readline() 텍스트 파일에 쓸 때..

[파이썬] 웹사이트 주소 수집하기(url 크롤링) 1. html에서 url 찾아서 파이썬으로 가져오기

requests 로 사이트에 요청을 보내고 Beautifulsoup으로 html을 다루는 방법까지 소개했다. https://ryuhyun.tistory.com/63 [파이썬] 웹 크롤링 시작하기 2. BeautifulSoup로 html 다루기 파이썬 requests 모듈로 웹사이트에 요청을 보내는 방법에 대해 정리한 것에 이어서 웹사이트 내의 정보들을 수집하기 위해서 해당 사이트의 html을 다루는 툴로 BeautifulSoup 모듈을 소개한다. https:// ryuhyun.tistory.com 코로나 확진자 정보 수집을 위해 질병관리청 보도자료 게시글 링크(url)들을 수집하려고 한다. 질병관리청에서는 매일 보도자료를 통해 코로나19 발생과 예방접종 등 관련 현황들에 대해 정보를 공개하고 있다. ht..

[파이썬] 웹 크롤링 시작하기 2. BeautifulSoup로 html 다루기

파이썬 requests 모듈로 웹사이트에 요청을 보내는 방법에 대해 정리한 것에 이어서 웹사이트 내의 정보들을 수집하기 위해서 해당 사이트의 html을 다루는 툴로 BeautifulSoup 모듈을 소개한다. https://ryuhyun.tistory.com/56 [파이썬] requests 모듈로 웹 스크래핑 시작하기 (requests.get()으로 요청 보내기) requests 모듈은 파이썬 웹 스크래핑에서 활용되는 모듈로, http에 응답을 요청해서 받을 수 있다. requests 모듈이 설치되어있는지 확인하고 설치를 진행하기 위해 아래와 같이 설치 명령어 pip install ryuhyun.tistory.com requests 모듈로 해당 사이트로부터 정보를 수집가능한 것을 확인하고, 사이트의 htm..

좌표체계 기본 3. 투영(projection)과 좌표 표현

https://ryuhyun.tistory.com/59 좌표체계 기본 2. 데이텀(타원체, 중심)과 측지계 변환 https://ryuhyun.tistory.com/58 좌표체계 기본 1. 지오이드와 타원체(Bessel, GRS80, WGS84 등) 지구의 형상은 완벽한 구형이 아니라, 실제로는 굉장히 울퉁불퉁하다. 울퉁불퉁한 지구상에 위치를 표현하기 위 ryuhyun.tistory.com 지구상의 위치를 표현하는 방법은 크게 아래와 같이 두 종류로 구분된다. 1. 3차원 구 상의 위치를 표현 -> 지리좌표계(GCS, Geographic Coordinate Systems) 2. 2차원 평면상에 위치를 표현 -> 투영좌표계(PCS, Projected Coordinate Systems) 1) GCS(지리좌표계..

도구들/GIS 2022.03.15

좌표체계 기본 2. 데이텀(타원체, 중심)과 측지계(지역,세계) 변환

https://ryuhyun.tistory.com/58 좌표체계 기본 1. 지오이드와 타원체(Bessel, GRS80, WGS84 등) 지구의 형상은 완벽한 구형이 아니라, 실제로는 굉장히 울퉁불퉁하다. 울퉁불퉁한 지구상에 위치를 표현하기 위해서 가상의 지구 표면을 가정한다. 가상의 표면은 '중력 방향에 직각'인 표면으 ryuhyun.tistory.com 이어지는 글이다. 원하는 지역의 지오이드 형상에 잘 맞는 '준거타원체(reference ellipsoid)' 를 정해서 활용할 때, 타원체의 위치 기준을 정하는 것이 필요하다. 이때 필요한 타원체와 타원체의 중심에 대한 정보를 데이텀(datum, 측지계)라고 한다. 지역측지계의 경우 지오이드의 중심과 타원체의 중심은 다를 수 있다. 지오이드상의 특정 지..

도구들/GIS 2022.03.15
반응형