반응형

KNN 2

[머신러닝] KNN을 이용한 비만도 분석

import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import load_iris # sklearn에서 제공하는 붓꽃 데이터 from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.linear_model import LinearRegression 1. 문제정의 500명의 키와 몸무게, 비만도 라벨을 통해서 비만을 판단하는 모델을 만들어보자2. 데이터 수집 2. 데이터 수집 data = pd.read_csv('bmi_500.csv', index_col = "Label" #La..

[머신러닝] 과대적합과 과소적합 & KNN(K- 최근접 이웃 알고리즘)

일반화 훈련 데이터로 학습한 모델이 예측 데이터에 대해 정확히 예측하도록 하는것 trian(훈련)과 test(예측) 데이터의 비율이 7:3 과대적합과 과소적합의 중간 같은 느낌 예측률이 제일 높다 과대적합 훈련 데이터에 너무 적합되어서 예측 데이터를 넣었을 때 제대로 작동되지 않음 예를 들어 훈련 데이터로 축구공을 넣어서 학습시켜 둥글면 공이라고 인식시키고 싶은데 훈련 데이터에 너무 적합되어 농구공, 야구공 같은 것들은 공이라고 인식하지 못하고 축구공만 공이라고 인식한다. 데이터의 칼럼수가 증가할 수 록 과대적합 확률 증가 train데이터가 많을수록 과대적합 확률 증가 훈련 데이터에는 오차가 적은데 예측 데이터에는 오차가 증가하는 현상 (여기서 오차는 실제 데이터랑 얼마나 다른지 정도로 보면 된다.) (..

반응형