파이썬/머신러닝

[머신러닝] 머신러닝의 개념과 과정

취준생코린이 2021. 6. 3. 01:04
728x90

Rule-based expert system (규칙 기반 전문가 시스템)

  • 'if' 와 'else'로 하드 코딩된 명령을 사용하는 시스템
  • 단점:
    • 많은 상황에 대한 규칙들을 모두 만들어 낼 수 없다
    • 제작한 로직이 특정 작업에만 국한된다.
      작업이 조금만 변경되더라도 전체 시스템을 다시 만들어야 할 수 있다
    • 규칙을 설계하려면 해당 분야에 대해서 잘 알고 있어야한다

 

 

규칙기반 전문가 시스템은 규칙을 사람이 만들어 내는 거라면 머신러닝은 규칙을 기계가 만든다.

 

 

머신러닝의 개념

  • 데이터를 기반으로 학습을 시켜 예측하게 만드는 기법
  • 학습을 통해 기계가 스스로 규칙을 만들어 낸다
  • 데이터를 이용하여 특성과 패턴을 학습하고, 그 결과를 바탕으로 미지의 데이터에 대한 
    미래결과(값, 분포)를 예측하는 것이다
  • 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야
  • 통계학, 데이터 마이닝, 컴퓨터 과학이 어우러진 분야

 

 

머신러닝 종류

  1. 지도학습
    • 데이터에 대한 Label(명시적인 답)이 주어진 상태에서 컴퓨터를 학습시키는 방법
    • 사람이 직접 대입해서 정확성이 높음
    • 사람이 Label을 작성해야 하기때문에 구할 수 있는 데이터가 한계가 있다.
    • 분류와 회귀가 있다.
  2. 비지도학습
    • 데이터에 대한 Label(명시적인 답)이 없는 상태에서 컴퓨터를 학습시키는 방법
    • 데이터의 숨겨진 특징, 구조, 패턴을 파악하는데 사용
    • 데이터를 비슷한 특성끼리 묶는  클러스터링과 차원축소등이 있다.
  3. 강화학습
    • 지도학습과 비슷하지만 완전한 Label(답)을 제공하지 않는다.
    • 기계는 더많은 보상을 받을 수 있는 방향으로 학습
    • 주로 게임이나 로봇을 학습시키는데 많이 사용한다.

 

 

머신러닝(Machine Learning) 과정

  1.  problm Identification(문제정의)
    • 비즈니스 목적 정의 : ex) 모델을 어떻게 사용해 이익을 얻을까?
    • 현재 솔루션의 구성 파악
    • 지도 VS 비지도 VS 강화
    • 분류 VS 회귀
  2. Data Collect (데이터 수집)
    • File ( CSV, XML, JSON)
    • Database
    • Web Srawler (뉴스, SNS, 블로그)
    • IoT 센서를 통항 수집
    • Survey
  3. Data Preprocessing (데이터 전처리)
    • 결측치, 이상치 처리
    • Featuer Engineering (특성공학)
      Scaling(단위 변환),
      Transfrom (새로운 속성 추출),
      Encoding(범주형 -> 수치형),
      Binning (수치형-> 범주형)
  4. EDA (탐색적 데이터 분석)
    • 기술통계, 변수간 상관관계
    • 시각화
      pandas, marplotlib, seaborn
    • Feature Selection (사용할 특성 선택)
  5. Model 선택, Hyper parameter 조정
    • 목적에 맞는 적절한 모델 선택
    • KNN, SVM, Linear Regression, CNN, RNN...
    • Hyper Parameter : model의 성능을 개선하기 위해 사람이 직접 넣는 parameter 
  6. Model Training (학습)
    • model.fit( X_train, Y_train)
      train 데이터와 test데이터를 7:3 정도로 나눔
      먼저 test데이터로 학습시킨후에 train으로 학습시킴
    • model.predic(X_test)
    •  
  7. Evaluation(평가)
    • accuracy (정확도)
    • recall (재현율)
    • precision (정밀도)
    • f1 score

 

 

 

 

 

728x90