반응형

파이썬/Data Science 5

[Data Science] 데이터 퀄리티 높이기

데이터 퀄리티의 중요성 분석할때 아무리 좋은 알고리즘을 써도 안좋은 데이터를 분석하면 안 좋은 결과가 나온다. 예를 들어 연매출을 비교하여 식당을 차리려는데 a지역의 연매출은 40, 50, 20, 80, 1300000 b지역 연매출 390, 450, 990, 840, 570으로 평균은 a가 260038, b가 648로 a의 연매출 평균이 더 높아보이지만 알고보니 다른데이터들은 만원단위인데 1300000는 일원 단위여서 b지역이 더 좋은 지역이지만 a를 선택하는 결론이 날수있다. 이처럼 수백 수천 가지의 데이터들중 하나라도 잘못된 데이터가 있으면 예상치 못한 결과가 나오거나 오류가 발생할수있다. 좋은 데이터의 기준 완결성 유일성 통일성 정확성 1. 완결성 (Completeness): "필수적인 데이터는 모..

[Data Science] 큰데이터 프레임/큰 시리즈를 살펴볼때 도움이 되는 함수

큰 데이터프레임을 살펴볼때 데이터프레임.shape 데이터프레임의 행과 열수를 알수있다. (행수, 열수) 데이터프레임.columns 어떤 컬럼들이 있는지 확인할수있다. 데이터프레임.info() 각 컬럼들의 기본 정보를 한눈에 볼수있다. 데이터프레임.describe() 각 컬럼들에 대한 기술통계정보를 보여준다. 데이터프레임.sort_values(by="") by값을 기준으로 정렬한다. ascending = False를 하면 내림차순으로 정렬된다. 디폴트는 오름차순 inplace = True를 해야 정렬된 값이 원본에 저장된다. 디폴트는 False다. 큰 시리즈를 살펴볼때 .unique() 중복되는 값을 뺀 값만 보여준다. .value_counts() 몇개인지 횟수를 세준다. .describe() 시리즈 요약값

[Data Science] pandas라이브러리 정리

pandas 라이브러리 데이터 조작 및 분석을 위한 라이브러리 Series Class : 1차원 :인덱스 + 값 DataFrame Class : 2차원 :행과 열을 가지는 표와 같은 형태 :서로 다른 종류의 자료형을 저장 할수있음 import pandas as pd로 임폴트하고 보통 pd로 불여부른다. import pandas as pd Series 사용(1차원) list1 = [996231, 654615, 452305, 44645] city = ['서울', '부산', '인천', '대구'] population = pd.Series(list1, index = city) population Series 값, 인덱스, 데이터 타입 확인 population.values # 값 확인 population.index..

[Data Science] numpy라이브러리 사용하기 [스마트인재개발원]

numpy 라이브러리 고성능 과학계산을 위한 데이터분석 라이브러리 (연산속도가 빠름) import numpy as np 임폴트할때 일반적으로 np로 줄여쓴다. numpy.ndarray 클래스 동일한 자료형을 가지는 값들이 배열 형태로 존재 N차원 형태로 구성이 가능 각 값들은 양의 정수로 색인(index)이 부여되어 있다. numpy에서 차원을 rank, axis라고 부르기도 한다 ndarray를 줄려서 array로 표현한다. numpy.ndarray 클래스로 배열 생성하는 방법 # np.array로 1차원 배열생성 list1 = [1, 2, 3, 4, 5] arr = np.array(list1) print(arr) # np.array로 2차원 배열생성 arr2 = [[1,2,3], [4, 5, 6]] ..

[Data Science] 데이터 사이언스 프로세스

데이더 사이언스에는 대략적으로 다음과같은 단계들이 있다. 문제 정의하기 데이터 모으기 데이터 다듬기 데이터 분석하기 데이터 시각화 및 커뮤니케이션 1. 문제 정의하기 해결하고자 하는 문제를 정의한다 목표설정 기간설정 평가방법 설정 필요한 데이터 설정 2. 데이터 모으기 필요한 데이터를 모을 수 있는 방벙을 찾는다. 웹 크롤링 자료모으기 파일 읽고 쓰기 3. 데이터 다듬기 데이터의 퀄리티를 높여서 의미있는 분석이 가능하게끔 한다. 데이터 관찰하기 데이터 오류 제거 데이터 정리하기 4. 데이터 분석하기 준비된 데이터로부터 의미를 찾는다. 데이터 파악하기 데이터 변형하기 통계분석 인사이트 발견 의미 도출 5. 커뮤니케이션 분석 결과를 다른 사람들에게 전달한다 다양한 시각화 커뮤니케이션 리포트

반응형