반응형

전체 글 72

주피터 노트북 마크다운

마크다운 연습하면 좋은 사이트 https://dillinger.io/ Online Markdown Editor - Dillinger, the Last Markdown Editor ever. Make something great today! dillinger.io https://stackedit.io/app# StackEdit stackedit.io esc = 커맨드 모드 커맨드 모드에서 F -> 변수명 찾아서 바꾸기 m -> 마크다운 모드로 바꿈 **두껍게** -> 글을 두껍게 바꿔줌 *날려쓰기* -> 글을 날려써지게 해줌 번호가 있는 목록 아래처럼 적으면 번호가 있는 목록(리스트)을 만들 수 있습니다. 1. 첫 번째 할일입니다. 2. 두 번째 할일입니다. 3. 세 번째 할일입니다. 번호가 없는 목록 숫..

파이썬 2021.06.05

[머신러닝] 서울시 CCTV현황으로 선형회귀 구하기

먼저 데이터 분석과 전처리부터 한후 선형회귀를 구할거다. 서울시 구별 CCTV 현황 분석하기 서울시 각 구별 CCTV수 파악 인구대비 CCTV 비율을 파악해서 순위매기기 인구대비 CCTV의 예측치를 확인하고, CCTV가 부족한 구 확인 # numpy : 고성능 과학계산을 위한 라이브러리, 다차원 데이터 # pandas : 데이터를 표현식으로 보여준다. 1,2차원 데이터 # matplotlib : 데이터 시각화 import numpy as np import pandas as pd import matplotlib.pyplot as plt 1. csv파일 읽어오기 - 서울시 구별 CCTV현황 cctvSeoul = pd.read_csv('CCTV_in_Seoul.csv', encoding = 'utf-8') #..

[머신러닝] 과대적합과 과소적합 & KNN(K- 최근접 이웃 알고리즘)

일반화 훈련 데이터로 학습한 모델이 예측 데이터에 대해 정확히 예측하도록 하는것 trian(훈련)과 test(예측) 데이터의 비율이 7:3 과대적합과 과소적합의 중간 같은 느낌 예측률이 제일 높다 과대적합 훈련 데이터에 너무 적합되어서 예측 데이터를 넣었을 때 제대로 작동되지 않음 예를 들어 훈련 데이터로 축구공을 넣어서 학습시켜 둥글면 공이라고 인식시키고 싶은데 훈련 데이터에 너무 적합되어 농구공, 야구공 같은 것들은 공이라고 인식하지 못하고 축구공만 공이라고 인식한다. 데이터의 칼럼수가 증가할 수 록 과대적합 확률 증가 train데이터가 많을수록 과대적합 확률 증가 훈련 데이터에는 오차가 적은데 예측 데이터에는 오차가 증가하는 현상 (여기서 오차는 실제 데이터랑 얼마나 다른지 정도로 보면 된다.) (..

[웹 크롤링] 페이지 다운과 이미지 크롤링

페이지 다운을 이용해서 유튜브에서 영상의 제목, 조회수 크롤링 from selenium import webdriver as wb from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup as bs import pandas as pd import time # 1. 크롬 드라이버를 실행해서 유튜브 화면 실행 driver = wb.Chrome() url="https://www.youtube.com/results?search_query=%EC%82%AC%EB%82%98%EA%B3%A0" driver.get(url) 페이지 다운 Keys.PAGE_DOWN 컴퓨터가 페이지 스크롤을 내릴수있게 해준다. 아래는 유튜브의 영상 제목과 영상..

[웹크롤링] Selenium 모듈과 tqdm라이브러리

라이브러리랑 모듈의 차이 모듈이란 함수나 변수 또는 클래스를 모아 놓은 파일이다. 모듈은 다른 파이썬 프로그램에서 불러와 사용할 수 있게끔 만든 파이썬 파일이라고도 할 수 있다. 다른 사람들이 이미 만들어 놓은 모듈을 사용할 수도 있고 우리가 직접 만들어서 사용할 수도 있다. 파이썬 라이브러리는 파이썬을 설치할 때 자동으로 설치되는 파이썬 모듈을 말한다. Selenium 모듈 웹페이지를 제어하기 위한 모듈 selenium모듈은 설치가 따로 필요하다. !pip install selenium 를 주피터노트북에 넣어 실행하면 설치가 된다. selenium모듈에 있는 함수들을 임폴드해주자! webdriver = 웹페이지를 제어하기 위한 모듈 >> 웹 그자체가 됨! Keys = 컴퓨터의 키보드와 같은 역할 모듈,..

[머신러닝] 머신러닝의 개념과 과정

Rule-based expert system (규칙 기반 전문가 시스템) 'if' 와 'else'로 하드 코딩된 명령을 사용하는 시스템 단점: 많은 상황에 대한 규칙들을 모두 만들어 낼 수 없다 제작한 로직이 특정 작업에만 국한된다. 작업이 조금만 변경되더라도 전체 시스템을 다시 만들어야 할 수 있다 규칙을 설계하려면 해당 분야에 대해서 잘 알고 있어야한다 규칙기반 전문가 시스템은 규칙을 사람이 만들어 내는 거라면 머신러닝은 규칙을 기계가 만든다. 머신러닝의 개념 데이터를 기반으로 학습을 시켜 예측하게 만드는 기법 학습을 통해 기계가 스스로 규칙을 만들어 낸다 데이터를 이용하여 특성과 패턴을 학습하고, 그 결과를 바탕으로 미지의 데이터에 대한 미래결과(값, 분포)를 예측하는 것이다 인공지능의 한 분야로 ..

[Data Science] numpy라이브러리 사용하기 [스마트인재개발원]

numpy 라이브러리 고성능 과학계산을 위한 데이터분석 라이브러리 (연산속도가 빠름) import numpy as np 임폴트할때 일반적으로 np로 줄여쓴다. numpy.ndarray 클래스 동일한 자료형을 가지는 값들이 배열 형태로 존재 N차원 형태로 구성이 가능 각 값들은 양의 정수로 색인(index)이 부여되어 있다. numpy에서 차원을 rank, axis라고 부르기도 한다 ndarray를 줄려서 array로 표현한다. numpy.ndarray 클래스로 배열 생성하는 방법 # np.array로 1차원 배열생성 list1 = [1, 2, 3, 4, 5] arr = np.array(list1) print(arr) # np.array로 2차원 배열생성 arr2 = [[1,2,3], [4, 5, 6]] ..

[웹 크롤링]Requests 와 BeautifulSoup 라이브러리로 페이지 정보 가져오기 [스마트인재개발원]

Requests 라이브러리 Requests 라이브러리는 페이지에 정보를 요청할 때 사용한다. import requests as rep 로 임 폴트 하고 앞으로 rep로 줄여서 사용할 거다. req.get('주소') : 를 사용해서 페이지를 받아온다. res = req.get('주소')로 받아온 페이지를 변수에 담아주고 res.text를 하면 요청한 페이지의 정보를 볼 수 있다. import requests as req # 네이버 페이지를 요청 res = req.get("https://www.naver.com/") # req.get("https://www.naver.com/")의 결과 창이 # ,로 뜨는데 아래와 같은 뜻이다. # : 페이지를 잘 받아왔다는 사인 # : 응답을 할 수 없습니다. # 요청한 ..

[Data Science] 데이터 사이언스 프로세스

데이더 사이언스에는 대략적으로 다음과같은 단계들이 있다. 문제 정의하기 데이터 모으기 데이터 다듬기 데이터 분석하기 데이터 시각화 및 커뮤니케이션 1. 문제 정의하기 해결하고자 하는 문제를 정의한다 목표설정 기간설정 평가방법 설정 필요한 데이터 설정 2. 데이터 모으기 필요한 데이터를 모을 수 있는 방벙을 찾는다. 웹 크롤링 자료모으기 파일 읽고 쓰기 3. 데이터 다듬기 데이터의 퀄리티를 높여서 의미있는 분석이 가능하게끔 한다. 데이터 관찰하기 데이터 오류 제거 데이터 정리하기 4. 데이터 분석하기 준비된 데이터로부터 의미를 찾는다. 데이터 파악하기 데이터 변형하기 통계분석 인사이트 발견 의미 도출 5. 커뮤니케이션 분석 결과를 다른 사람들에게 전달한다 다양한 시각화 커뮤니케이션 리포트

반응형