반응형

크롤링 3

웹툰 승격 확률 예측 시스템 프로젝트 - 크롤링2 [스마트인재개발원]

이번에는 웹툰 제목, 회차별 등록일, 회차별 조회수 ,회차별 별점, 댓글, 댓글 좋아요수, 댓글싫어요수를 크롤링 할거다. 크롤링할때 먼저 정식웹툰만 쭉 크롤링하고, 랜덤함수로 웹툰 몇페이지만 뽑아서 비정식웹툰을 크롤링 할거다. 가져올 데이터 정식웹툰 크롤링 웹툰 제목, 회차별 등록일, 회차별 조회수 ,회차별 별점, 댓글, 댓글 좋아요수, 댓글싫어요수 from selenium import webdriver as wb from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup as bs import pandas as pd import time 먼저 위의 라이브러리를 임폴트 해주세요 driver = wb.Chrome() title..

프로젝트 2021.07.04

웹툰 승격 확률 예측 시스템 프로젝트 - 크롤링1 [스마트인재개발원]

프로젝트 소개 웹툰 승격 확률 예측 시스템 프로젝트를 하고 있습니다. 네이버 베도 작품들중 정식웹툰으로 승격된 작품과 승격이 되지 않은 작품들을 비교하여 아직 정식이 되지못한 베도 작품들이 승격될 확률이 얼마나 있는지를 예측해주는 웹사이트를 만들겁니다. 일단 데이터를 수집은 크롤링으로 하고 예측은 머신러닝으로 웹사이트 제작은 자바로 할예정입니다. 역할 분담은 DB, 크롤링, 데이터분석, 머신러닝, 웹디자인, 웹기능구축으로 나뉘는데 저는 크롤링, 데이터분석, 머신러닝 파트를 맡아서 티스토리에는 이 3파트를 정리할 예정입니다. 먼저 데이터를 수집에서 가져올 데이터는 웹툰 제목, 장르, 종합 별점, 종합 좋아요수, 정식연재 유무를 판단하기 위해 정식연재 확정된 작품의 제목, 회차별 조회수, 회차별 제목, 회차..

프로젝트 2021.07.04

[웹 크롤링]Requests 와 BeautifulSoup 라이브러리로 페이지 정보 가져오기 [스마트인재개발원]

Requests 라이브러리 Requests 라이브러리는 페이지에 정보를 요청할 때 사용한다. import requests as rep 로 임 폴트 하고 앞으로 rep로 줄여서 사용할 거다. req.get('주소') : 를 사용해서 페이지를 받아온다. res = req.get('주소')로 받아온 페이지를 변수에 담아주고 res.text를 하면 요청한 페이지의 정보를 볼 수 있다. import requests as req # 네이버 페이지를 요청 res = req.get("https://www.naver.com/") # req.get("https://www.naver.com/")의 결과 창이 # ,로 뜨는데 아래와 같은 뜻이다. # : 페이지를 잘 받아왔다는 사인 # : 응답을 할 수 없습니다. # 요청한 ..

반응형