본문 바로가기

전체 글

(18)
2. 스크래이핑 1. 쿠키를 이용한 접근: 한빛출판네트워크에 로그인해서 쇼핑정보 가져오기 F12의 네트워크 탭을 킨 상태로 로그인을 하여 확인해 보면 로그인 데이터가 POST방식으로 login_proc.php로 이동하는 것을 알 수 있다. import requests from bs4 import BeautifulSoup from urllib.parse import urljoin USER=" " PASS = " " session = requests.session() login_info = { "m_id": USER, "m_passwd": PASS } #POST로 데이터 보내기 url_login = "http://hanbit.co.kr/member/login_proc.php" res = session.post(url_log..
[패키지]dlib 설치하기 1. dlib를 다운받는다(좌측메뉴 하단에 있다) dlib.net/ 2. cmake를 설치한다. installer(msi파일)로 설치하는 것이 편하다. cmake.org/download/ 3. 명령프롬프트로 dlib 폴더 내의 src폴더로 이동해서 python setup.py build 를 입력한다. (꽤 오래 걸린다) 4. 위 과정이 끝나면 python setup.py install 을 입력한다. + pip list나 import dlib 해봐서 설치를 확인한다
1. 웹크롤링과 스크레이핑 0. BeautifulSoup, requests 설치 1. 실습 1: 내가 만든 html에서 데이터 가져오기 from bs4 import BeautifulSoup html=""" h1태그의 텍스트 p1태그의 텍스트1 p태그의 텍스트2 span.value").string print("환율=", price) 브라우저에서 궁금한 요소에 대고 우클릭>검사 로 해당 페이지의 html을 볼 수 있다. 이를 활용하여 soup에 해당 요소의 css 선택자를 넣으면 데이터를 가져올 수 있다. +cron을 명령어로 코드(크롤링+저장)를 주기적으로 수행시켜 데이터를 원하는 기간마다 수집할 수 있다.