반응형

파이썬/웹 크롤링 4

[웹 크롤링] Gmarket 100 가져오기로 창없는 크롤링하기

먼저 Gmarket에서 인기순위 1위인 상품의 상품명, 가격, 카테고리 정보를 가져와 보자. from selenium import webdriver as wb import pandas as pd import time driver = wb.Chrome() url = "http://corners.gmarket.co.kr/Bestsellers" driver.get(url) # 단수, 복수 잘보자! # elements 복수는 list로 가져와짐 # no1인 상품 클릭! div = driver.find_element_by_css_selector("p#no1 + div") div.click() itemTitle = driver.find_element_by_css_selector("h1.itemtit") itemPr..

[웹 크롤링] 페이지 다운과 이미지 크롤링

페이지 다운을 이용해서 유튜브에서 영상의 제목, 조회수 크롤링 from selenium import webdriver as wb from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup as bs import pandas as pd import time # 1. 크롬 드라이버를 실행해서 유튜브 화면 실행 driver = wb.Chrome() url="https://www.youtube.com/results?search_query=%EC%82%AC%EB%82%98%EA%B3%A0" driver.get(url) 페이지 다운 Keys.PAGE_DOWN 컴퓨터가 페이지 스크롤을 내릴수있게 해준다. 아래는 유튜브의 영상 제목과 영상..

[웹크롤링] Selenium 모듈과 tqdm라이브러리

라이브러리랑 모듈의 차이 모듈이란 함수나 변수 또는 클래스를 모아 놓은 파일이다. 모듈은 다른 파이썬 프로그램에서 불러와 사용할 수 있게끔 만든 파이썬 파일이라고도 할 수 있다. 다른 사람들이 이미 만들어 놓은 모듈을 사용할 수도 있고 우리가 직접 만들어서 사용할 수도 있다. 파이썬 라이브러리는 파이썬을 설치할 때 자동으로 설치되는 파이썬 모듈을 말한다. Selenium 모듈 웹페이지를 제어하기 위한 모듈 selenium모듈은 설치가 따로 필요하다. !pip install selenium 를 주피터노트북에 넣어 실행하면 설치가 된다. selenium모듈에 있는 함수들을 임폴드해주자! webdriver = 웹페이지를 제어하기 위한 모듈 >> 웹 그자체가 됨! Keys = 컴퓨터의 키보드와 같은 역할 모듈,..

[웹 크롤링]Requests 와 BeautifulSoup 라이브러리로 페이지 정보 가져오기 [스마트인재개발원]

Requests 라이브러리 Requests 라이브러리는 페이지에 정보를 요청할 때 사용한다. import requests as rep 로 임 폴트 하고 앞으로 rep로 줄여서 사용할 거다. req.get('주소') : 를 사용해서 페이지를 받아온다. res = req.get('주소')로 받아온 페이지를 변수에 담아주고 res.text를 하면 요청한 페이지의 정보를 볼 수 있다. import requests as req # 네이버 페이지를 요청 res = req.get("https://www.naver.com/") # req.get("https://www.naver.com/")의 결과 창이 # ,로 뜨는데 아래와 같은 뜻이다. # : 페이지를 잘 받아왔다는 사인 # : 응답을 할 수 없습니다. # 요청한 ..

반응형