[Web Crawling] KOSPI 전종목 지수 가져오기
2022. 9. 9. 04:50
Data Science/Web Crawling
크롤링 연습에 가장 좋은 것이 바로 주식 데이터 불러오기다. 동학개미로서 참을 수 없었기 때문에 KOSPI 전종목을 불러오는 코드를 통해 실습을 진행해보았다. 코드를 하기 전 준비물은 전종목 kospi 종목코드다. kospi 종목코드에 관한 정보는 KRX 정보데이터시스템에서 csv로 추출하여 가져왔다. 종목코드를 기준으로 종목 정보는 네이버 금융에서 크롤링했다. 코드는 다음과 같다. import time import requests import numpy as np import pandas as pd from bs4 import BeautifulSoup stocklist = pd.read_csv("data_1607_20220906.csv", ',', encoding='CP949..

[Web Crawling] 패턴 URL 크롤링
2022. 9. 9. 04:48
Data Science/Web Crawling
크롤링 타겟 URL이 순서 또는 특정 규칙에 따라 페이지별로 바뀌는 부분을 이용해 반복문을 통해 다수의 페이지를 긁어오는 방식. 패턴 URL 크롤링은 가장 많이 쓰이는 크롤링으로 여러 페이지를 한번에 긁어오는데 상당히 유용한 방법이다. 로또 당첨 번호를 예시로 패턴 URL에 대해 알아보도록 하자. 네이버에 1031회 로또 당첨번호를 검색해보면, 이런 화면이 나온다. URL을 확인해보면 https://search.naver.com/search.naver?where=nexearch&sm=tab_etc&qvt=0&query=1031%ED%9A%8C%20%EB%A1%9C%EB%98%90%EB%8B%B9%EC%B2%A8%EB%B2%88%ED%98%B8 1031회 로또당첨번호 : 네이버 통합검색 '1031회 로또당..

[Web Crawling] 웹 정보 선별하기
2022. 9. 7. 16:08
Data Science/Web Crawling
웹 크롤링의 뼈대는 앞선 포스팅을 통해 알아보았으니, 이번엔 웹 데이터를 어떻게 가져오고 선별은 어떻게 하는지를 알아보도록 하겠다. 우선, 웹 페이지가 무엇인지 대략적으로 알아야 웹페이지에 있는 특정데이터를 가져올 수 있을 것이다. 웹페이지 그렇다면, 웹페이지는 무엇일까? 개발을 찍먹이라도 해본 분이라면 다들 HTML, CSS, JS가 웹페이지의 3요소라는 사실은 다들 알 것이다. 건물로 비유하자면, 철근콘크리트 - HTML 익스테리어 및 인테리어 - CSS 상하수도, 전기, 가스, 엘레베이터 - JS 라고 이해하면 쉬울 것이다. HTML이 웹페이지의 뼈대를 이루고, CSS는 웹페이지의 디자인을 컨트롤하는 데 쓰이며, JS는 웹페이지가 돌아가게끔 하는 로직을 담당하는 것이기 때문에 이 세가지가 모두 유기..
(Web Crawling) 웹 크롤링이란?
2022. 9. 7. 14:21
Data Science/Web Crawling
웹 크롤링 웹 크롤링은 데이터 사이언스를 하는데 있어서 알아두면 굉장히 좋은 스킬이다. 아마 코딩을 배우는 분들이면 많이 들어봤을 것이다. 그렇다면, 웹 크롤링은 대체 무엇일까? 어원을 보면 '웹을 긁어오는 것' 이라는 뜻이다. 자동화된 방법으로 웹을 탐색하는 컴퓨터 프로그래밍 이것이 웹 크롤링이다. 사실 우리는 매일 웹 크롤러(웹 크롤링을 하는 서비스, 프로그램)을 사용한다. 바로 구글, 네이버 같은 포털사이트가 대표적인 웹 크롤링 서비스다. 구글의 초기 비즈니스 모델이 웹 크롤러인 구글 포탈이었다. 지금 IT 생태계의 거대 공룡들이 포탈사이트가 기반인 회사들인 것을 보면 이것이 얼마나 강력한 툴인지 알 수 있다. 물론, 기업만 웹 크롤링을 할 수 있는 것은 아니다. 개인도 파이썬을 가지고 내가 원하는..
크롬드라이버 세팅하기
2022. 9. 3. 03:01
Data Science/Web Crawling
웹크롤링을 하기 위해서는 크롬드라이버를 설치해야 한다. chromedirver는 아래 링크에 들어가서 다운로드 받을 수 있다. 다운로드 링크 https://chromedriver.chromium.org/downloads 그리고ipython을 실행한 후 >>> from selenium import webdriver >>> driver = webdriver.Chrome(executable_path="chromedriver.exe")를 실행하면 크롬창이 열린다! 이것이 수업의 짧은 오프닝이었다. 그렇다면 나는 왜 대체 이 오프닝을 멈춘채 1시간을 해매야 했는가? WebDriverException: Message: Service /Users/john/Downloads/chromedriver unexpectedl..