목록분류 전체보기 (69)
AI 전문가가 되고싶은 사람
● 가설과 가설 검정 이야기 1. 모집단(Population)과 표본(Sample) ○ 모집단 : 우리가 알고 싶은 대상 전체 영역 ( 데이터 ) ○ 표본 : 그 대상의 일부 영역 ( 데이터 ) * 모집단에서 표본을 뽑음으로써 일부분으로 전체를 추정하고자 함 2. 비즈니스 이해 단계에서 사용 ○ 비즈니스 문제로부터 우리의 관심사(Y)를 도출 -> Y에 영향을 주는 요인(X)들을 뽑아서 가설 수립 ex) 고객 이탈 예측(y)에 영향을 주는 요인(x)는? 고객의 가입기간(x1) -> 이탈여부(y) 성별(x2) -> 이탈여부(y) 직업(x3) -> 이탈여부(y) 3. 귀무가설(H0), 대립가설(H1) ○ 귀무가설 ( 영가설, 현재의 가설, 보수적인 입장 ) : 현재 주장되고 있는 가설 ex 1) 매장지역에 따..
● 시계열 데이터 처리 1. 라이브러리 및 데이터 불러오기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns sales = pd.read_csv("https://raw.githubusercontent.com/DA4BAM/dataset/master/ts_sales_simple.csv") products = pd.read_csv("https://raw.githubusercontent.com/DA4BAM/dataset/master/ts_product_master.csv") data.head() 2. 날짜 타입으로 변환 - pd.to_datetime(날짜데이터, format = ' 입력되는 날짜 ..
데이터 프레임 변경 # 데이터 읽어오기 data = pd.read_csv('https://raw.githubusercontent.com/DA4BAM/dataset/master/Attrition_simple2.CSV') ● 열 이름 변경 1. 일부 열 이름 변경 - rename() 메소드 사용해 변경 전후 열 이름을 딕셔너리 형태로 나열하는 방법으로 변경 - inplace = True 옵션을 설정해야 변경 사항이 실제 반영이 된다. ( False일 경우 조회 ) # rename() 함수로 열 이름 변경 data.rename(columns={'DistanceFromHome' : 'Dis', 'EmployeeNumber' : 'EN', 'JobSatisfaction' : 'JS', 'MonthlyIncome'..
데이터프레임 테이블 형태, 엑셀 형태 ( 보통은 csv파일, 엑셀 파일 또는 DB에서 읽어옴 ) 1. 인덱스와 열 이름이 없는 형태 데이터프레임은 실무에서는 자주 볼 수 없음 2. 열 이름을 지정한 형태 인덱스를 지정할 필요가 없는 경우가 많으므로 자주 보게 되는 형태 3. 인덱스와 열 이름을 지정한 형태 대부분 주식 시세와 같은 날짜가 인덱스로 지정되는 경우 데이터프레임 만들기 ( pd.DataFrame() ) 대부분 리스트, 딕셔너리, Numpy 배열로부터 데이터프레임을 만듦 데이터 프레임을 만들기 위해서는 (데이터, 열 이름, 인덱스 이름 )이 필요 열 이름 지정 x -> 열 번호에 기반한 정수가 열 이름이 됨 인덱스 이름 지정 x -> 행 번호에 기반한 정수가 인덱스 이름이 됨 csv파일 읽어오기..
Numpy 배열 axis : 배열의 각 축, 2차원일 경우 (axis 0 : 행, axis 1 : 열) rank : 축의 개수 ( 위 그림에서는 2 ) shape : 축의 길이, 배열의 크기 (3, 4) n차원 배열 만들기 1차원 list = [1,2,3,4,5] 배열로 변환 함수 ( np.array ) arr = np.array(list) -> [1,2,3,4,5] 2차원 list = [[1,3,5], [4,2,1]] arr = np.array(list) -> [[1,3,5] [4,2,1]] 배열 차원 확인 ( ndim ) ex) arr.ndim 형태 확인 ( shape ) 배열에 포함된 요소가 사라지지 않는 형태면 변환 가능 ex) (18,1) -> (3,6) -> (2,9) but (1,9) 요소 ..