Notice
Recent Posts
Recent Comments
Link
01-04 19:27
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

AI 전문가가 되고싶은 사람

가설 검정, 중심 극한 정리, t-test 정리 및 복습 본문

기자단 활동

가설 검정, 중심 극한 정리, t-test 정리 및 복습

Kimseungwoo0407 2024. 2. 28. 18:55

● 가설과 가설 검정 이야기

1. 모집단(Population)과 표본(Sample)

○ 모집단 : 우리가 알고 싶은 대상 전체 영역 ( 데이터 )

○ 표본 : 그 대상의 일부 영역 ( 데이터 )

* 모집단에서 표본을 뽑음으로써 일부분으로 전체를 추정하고자 함

 

2. 비즈니스 이해 단계에서 사용

○ 비즈니스 문제로부터 우리의 관심사(Y)를 도출 -> Y에 영향을 주는 요인(X)들을 뽑아서 가설 수립

ex) 고객 이탈 예측(y)에 영향을 주는 요인(x)는?

고객의 가입기간(x1) -> 이탈여부(y)

성별(x2) -> 이탈여부(y)

직업(x3) -> 이탈여부(y)

 

3. 귀무가설(H0), 대립가설(H1)

○ 귀무가설 ( 영가설, 현재의 가설, 보수적인 입장 ) : 현재 주장되고 있는 가설

ex 1) 매장지역에 따라 수요량에 차이가 없다.

ex 2)비가 온 날에는 항상 개구리를 본다.

 

○ 대립가설 ( 연구가설, 새로운 가설, 내가 바라는 바 ) : 귀무 가설이 맞지 않고 틀리다는 증거를 찾아내기 위한 가설

ex 1) 매장지역에 따라 수요량에 차이가 있다.

ex 2) 비가 온 날에도 개구리를 보지 못하는 경우가 있다.

 

4. 모집단에서 추출한 표본으로부터 대립가설을 확인하고, 모집단에서도 맞을 것이라 주장

○ 분포 + 판단 기준 필요 ( p-value : 유의수준이라고 부르며, 0.05 (5%) 혹은 좀 더 보수적인 기준으로 0.01(1%)를 사용

○ 0.05 혹은 0.01 보다는 p-value가 작아야, 차이가 있다고 판단

 

5. 인도 여성의 평균 키가 5.4 인치 미만 -> 단측 검정

○ H0 ( 귀무가설 ) : 평균 높이 (u) = 5.4 인치

○ H1 ( 대립가설 ) : 평균 높이 (u) < 5.4 인치

왼쪽 꼬리 분포

https://ichi.pro/ko/gaseol-teseuteue-daehan-choboja-gaideu-267513702302156

 

5-1. 인도 여성의 평균 키가 5.4 인치 이상 -> 단측 검정

○ H0 ( 귀무가설 ) : 평균 높이 (u) = 5.4 인치

○ H1 ( 대립가설 ) : 평균 높이 (u) >= 5.4 인치

오른쪽 꼬리 분포

https://ichi.pro/ko/gaseol-teseuteue-daehan-choboja-gaideu-267513702302156

 

 

6. 양측 가설 검정 ( 인도 여성의 평균 키는 5.4 인치 )

○ H0 ( 귀무가설 ) : 평균 키 (u) = 5.4 인치

○ H1 ( 대립가설 ) : 평균 키 (u) =! 5.4 인치

 

양측

https://ichi.pro/ko/gaseol-teseuteue-daehan-choboja-gaideu-267513702302156

 

7. 상관 계수

○ 값의 범위 : -1 ~ 1

○ -1 혹은 1에 가까울 수록 강한 상관관계, 반대로 0에 가까울 수록 약한 상관관계

○ p-value : 0.05보다 작으면 상관관계가 있다고 판단

 

https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D

 

 

 

8. 우리가 사용할 도구

○ 연속형 (x) - 연속형 (y) : ( 시각화 - scatter (산점도) , 수치화 - 상관분석 )

○ 연속형 (x) - 범주형 (y) : ( 시각화 - Boxplot, Histogram, Density plot )

 

8-1.  연속형 (x) - 연속형 (y)

○  해당 carseats 데이터를 사용해서 설명

ShelveLoc, Urban, US 를 제외한 나머지 변수가 연속형 변수

 

○ Scatter plot ( Price -> Sales )

sns.scatterplot(x='Price', y = 'Sales', data = data)
plt.show()

result = spst.pearsonr(data['Price'], data['Sales'])
print(f'상관계수 : {result[0]}, p-value : {result[1]}')

상관계수는 -0.444로 음의 상관관계를 갖고, p-value이 0.05보다 작다. 두 변수는 상관관계가 있다. (귀무가설 기각, 대립 가설 채택 )

 

8-2. 범주형(x) - 연속형(y)

○ titanic 데이터를 사용해서 설명

 

○ 시각화 - 평균 비교 ( barplot )

- 두 변수간의 차이가 애매!

- 눈으로 판단하기 힘

- Survived(범주형), Age(연속형)

○ 수치화 - t-test

* 주의사항 - 데이터에서 NaN이 있으면 계산이 안됨, notnull() 등으로 NaN을 제외한 데이터 사용해야 함

- 여기서 t 통계량이란 두 평균의 차이를 표준오차로 나눈 값으로 두 평균의 차이로 이해해도 됨

- 보통, t 값이 -2보다 적거나, 2보다 크면 차이가 있다고 봄

 

1) 데이터 준비

# 먼저 NaN이 있는지 확인해 봅시다.
titanic.isna().sum()

# NaN 행 제외
temp = titanic.loc[titanic['Age'].notnull()]

# 두 그룹으로 데이터 저장
died = temp.loc[temp['Survived']==0, 'Age']
survived = temp.loc[temp['Survived']==1, 'Age']

 

2) t-test

spst.ttest_ind(died, survived)

- t 값이 2보다 크고, p-value가 0.05보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택한다 -> 두 평균의 차이가 있다!

 

9. 중심 극한 정리 ( 큰 규모의 표본에서 특히 중요한 역할을 함 )

○ 어떤 모집단에서 표본을 여러 번 추출하면, 그 표본 평균들의 분포가 정규분포를 따르게 된다

○ 중요한 부분! : 원래의 모집단의 분포 형태에 상관없이 성립

ex) 우리가 전 세계의 모든 성인 남성의 키를 알고 싶다고 가정했을 때, 이것은 거의 불가능한 일이다

      but 중심 극한 정리를 이용한다면 이 문제를 해결할 수 있음!

      대상 집단에서 일부를 무작위로 선택(표본추출)하고, 그들의 키의 평균을 계산

      -> 각 표본의 평균들이 이루는 분포는 정규분포를 따르게 됨

           -> 해당 정규분포의 평균과 표준편차를 이용하면 전체 모집단의 키에 대한 유용한 정보를 얻을 수 있음

 

https://drhongdatanote.tistory.com/57