반응형

전체 글 72

[광주인공지능학원] 스마트인재개발원을 다니면서 느낀점

오늘은 스마트인재개발원을 다니면서 느낀 점을 쓰려고 합니다. 제가 스마트인재개발원을 다닌 이유는 코딩 공부를 하고 싶어서였어요. 학교 수업에서 코딩 수업을 들으면 기초가 없는데 교수님들은 기초를 다 안다고 가정하고 진도를 나가셔서 못 따라갔거든요. 그래서 전공을 활용해서 취업하고는 싶은데 이론 지식만 있고 코딩 실력은 없었어요. 학교에서 해주는 특강도 받아보고 온라인 코딩 수업도 들어보고 했습니다. 학교에서 해주는 특강 수업은 방학 단기 수업이라 한 달밖에 안 해줘서 그런지 배운 게 없는데 벌써 끝?? 이런 느낌이라 얻은 게 별로 없었어요. 온라인 수업의 경우에는 강의도 많고 수업의 질도 좋았지만 내가 어느 거부터 들어야 할지 애매했고 혼자 듣다 보니까 안 듣는 날도 생기고 듣더라도 하루 한 시간 정도밖..

카테고리 없음 2021.07.18

웹툰 승격 확률 예측 시스템 프로젝트 - 감정분석2와 단어구름 [광주인공지능학원]

아래는 제가 쓴 코드에서 필요한 임폴트들인데요. 이거 전부를 임폴트할 필요는 없어요. 제가 사용할때는 전부 다 필요했지만 티스토리에는 시행착오 전부를 적을게 아니라 일부만 적을거기 때문에 중간중간에 sklearn빼고 파이썬 내장라이브러리가 아닌것들은 다운받지 않으셔도 됩니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import load_files # 파일읽어오기 import KnuSentiLexMaster from KnuSentiLexMaster.knusl import KnuSL # 한국어 사전 임폴트 연습 import tensorflow as tf # 텐서플로우 from ten..

프로젝트 2021.07.11

웹툰 승격 확률 예측 시스템 프로젝트 - kosac사전을 이용한 감정분석 [광주인공지능학원]

웹툰 승격 확률 예측 프로젝트에서 댓글을 가지고 긍정 부정 감정분석을 진행했어요. 먼저 kosac 한국어 감정사전을 이용하여 분석해봤고 긍정 부정 분류가 예상처럼 잘되지 않아서 다음으로는 수기로 긍정부정 라벨링을 달아주고 머신러닝을 돌려봤는데 훈련데이터의 수가 너무 적어서 정확도가 낮게 나오더라구요. 그래서 마지막으로 직접 긍정 부정 단어사전을 만들어서 머신러닝을 진행 했습니다. 티스토리에는 1. kosac 사전 사용 2. 수기 라벨링 3. 직접만든 단어사전 시행 착오를 전부 작성할 예정이고 이 글에서는 1. kosac 사전 사용을 적을 거에요. import numpy as np import pandas as pd 댓글 데이터가 10mb가 넘어서 업로드 할수가 없네요 ㅠㅠ 먼저 데이터를 불러옵니다 저는 ..

프로젝트 2021.07.11

웹툰 승격 확률 예측 시스템 프로젝트 - 크롤링2 [스마트인재개발원]

이번에는 웹툰 제목, 회차별 등록일, 회차별 조회수 ,회차별 별점, 댓글, 댓글 좋아요수, 댓글싫어요수를 크롤링 할거다. 크롤링할때 먼저 정식웹툰만 쭉 크롤링하고, 랜덤함수로 웹툰 몇페이지만 뽑아서 비정식웹툰을 크롤링 할거다. 가져올 데이터 정식웹툰 크롤링 웹툰 제목, 회차별 등록일, 회차별 조회수 ,회차별 별점, 댓글, 댓글 좋아요수, 댓글싫어요수 from selenium import webdriver as wb from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup as bs import pandas as pd import time 먼저 위의 라이브러리를 임폴트 해주세요 driver = wb.Chrome() title..

프로젝트 2021.07.04

웹툰 승격 확률 예측 시스템 프로젝트 - 크롤링1 [스마트인재개발원]

프로젝트 소개 웹툰 승격 확률 예측 시스템 프로젝트를 하고 있습니다. 네이버 베도 작품들중 정식웹툰으로 승격된 작품과 승격이 되지 않은 작품들을 비교하여 아직 정식이 되지못한 베도 작품들이 승격될 확률이 얼마나 있는지를 예측해주는 웹사이트를 만들겁니다. 일단 데이터를 수집은 크롤링으로 하고 예측은 머신러닝으로 웹사이트 제작은 자바로 할예정입니다. 역할 분담은 DB, 크롤링, 데이터분석, 머신러닝, 웹디자인, 웹기능구축으로 나뉘는데 저는 크롤링, 데이터분석, 머신러닝 파트를 맡아서 티스토리에는 이 3파트를 정리할 예정입니다. 먼저 데이터를 수집에서 가져올 데이터는 웹툰 제목, 장르, 종합 별점, 종합 좋아요수, 정식연재 유무를 판단하기 위해 정식연재 확정된 작품의 제목, 회차별 조회수, 회차별 제목, 회차..

프로젝트 2021.07.04

[머신러닝] 데이터 스케일링과 선형모델 [스마트인재개발원]

데이터 스케일링(Data Scaling) 특성(Feature)들의 범위(range)를 정규화 해주는 작업 특성마다 다른 범위를 가지는 경우 머신러닝 모델들이 제대로 학습되지 않을 가능성이 있다. (KNN, SVM, Meural network모델, Clustering 모델 등) 예를 들어 시력과 키를 함께 학습 시킬 경우 키의 범위가 크기때문에 거리값을 기반으로 학습할 때 영향을 많이 준다. - 데이터 스케일링 장점 특성들을 비교 분석하기 쉽게 만들어준다 Linear Model, Neural network Model등에서 학습의 안정성과 속도를 개선시킨다. 하지만 특성에 따라 원해 범위를 유지하는게 좋을 경우는 scaling을 하지 않아도 된다. - 데이터 스케일링 종류 StandardScaler 변수의 ..

[머신러닝]분류용 선형 모델(Linear Model - Classification) [스마트인재개발원]

분류용 선형 모델 공식 분류용 선형 모델 특징 특성들의 가중치 합이 0보다 크면 class를 +1(양성클래스) 0보다 작으면 클래스를 -1(음성클래스)로 분류한다 분류용 성형모델은 결정 경계가 입력의 선형함수 일대다 방법을 통해 다중 클래스 분류 다중 클래스를 분류하려면 선을 많이 그려야 한다. Logistic Regression 회귀공식을 사용해서 Regression이라는 이름이 붙음 결정경계가 선형이기 때문에 선형 모델 시그모이드 함수의 최적선을 찾고 반환값을 확률로 간주 선형함수의 결과값을 시그모이드 함수(Logistic Function)을 이용해 0과 1로 변환 - 시그모이드 함수 시그모이드 함수를 사용하면 직선을 곡선으로 바꿔준다. 값의 범위가 0~1 사이 - 주요 매개변수(하이퍼파라미터) 선형..

[Data Science] 데이터 퀄리티 높이기

데이터 퀄리티의 중요성 분석할때 아무리 좋은 알고리즘을 써도 안좋은 데이터를 분석하면 안 좋은 결과가 나온다. 예를 들어 연매출을 비교하여 식당을 차리려는데 a지역의 연매출은 40, 50, 20, 80, 1300000 b지역 연매출 390, 450, 990, 840, 570으로 평균은 a가 260038, b가 648로 a의 연매출 평균이 더 높아보이지만 알고보니 다른데이터들은 만원단위인데 1300000는 일원 단위여서 b지역이 더 좋은 지역이지만 a를 선택하는 결론이 날수있다. 이처럼 수백 수천 가지의 데이터들중 하나라도 잘못된 데이터가 있으면 예상치 못한 결과가 나오거나 오류가 발생할수있다. 좋은 데이터의 기준 완결성 유일성 통일성 정확성 1. 완결성 (Completeness): "필수적인 데이터는 모..

[JSP\Servlet] servlet 개념과 실습 1 [스마트인재개발원]

Servlet과 JSP의 개념 기능의 차이는 없고 역할의 차이만 있다. 하는 일은 동일하다. Servlet 개념 server상에서 작동하는 Java기반의 웹 어플리케이션 프로그래밍 기술 server + Applet의 합성어 Applet은 java 프로그램이 웹서버에서 자동으로 설치되어 동작하는 프로그램 클라이언트의 요청에 동적으로 작동하고 응답은 HTML을 이용한다. servlet은 HttpServlet 클래스를 상속받는다. 웹 개발을 위해 만든 표준 .java 확장자를 가진다 java Muulti Thread(멀티 쓰레드)를 이용하여 동작함으로 속도와 메모리 면의 효율성이 좋다 객체지향적 대규모 Web Application 개발에 적합하다 JSP 개념 Java 언어를 기반으로 하는 Server Side..

JSP\Servlet 2021.06.17
반응형