범주형 자료 분석 (categorical data analysis) 방법 002 : 승산 및 승산비 (odds ratio), 카이제곱 검정, 적합도 검정 (goodness of fit test), 독립성 검정 (test of independence), 동질성 검정 (test of homogeneity), 피셔의 정확 검정
+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.
- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,
- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc
- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.
+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.
1. 승산 및 승산비 (odds ratio)
1-1. 승산
- 승산이란 특정 사건이 발생할 확률 p를 발생하지 않을 확률 (1-p)로 나눈 값을 의미하며, 아래와 같이 표시될 수 있다.
odds = $$$\dfrac{p}{1-p}$$$
- 축구경기에서 한국팀이 독일팀에 승리할 확률을 0.2라고 한다면, 한국팀의 승산은 $$$\dfrac{0.2}{0.8} = \dfrac{1}{4}$$$ 이며, 질 확률이 4배가 높다 라고 해석할 수 있다.
1-2. 승산비
- 승산비 (odds ratio)는 특정 조건에서의 성공 승산값을 다른 조건에서의 성공 승산값으로 나눈 값을 의미하며 아래와 같이 표시될 수 있다.
승산비 = $$$\dfrac{\text{승산1}}{\text{승산2}} = \dfrac{\text{관심집단의 승산}}{\text{비교집단의 승산}}$$$
- 아래표는 이전 포스팅에서 살펴보았던 이원 분할표의 예시이다.
사건 발생 | 사건 미발생 | 합계 | |
---|---|---|---|
관심 집단 | a | b | a+b |
비교 집단 | c | d | c+d |
합계 | a+c | b+d | a+b+c+d |
- 관심집단에서 특정 사건이 발생할 승산은 아래와 같이 구할 수 있다. 상대위험도와 수식이 다른점에 주의한다.
관심집단의 승산 = $$$\dfrac{\dfrac{a}{a+b}}{\dfrac{b}{a+b}} = \dfrac{a}{b}$$$
- 비교집단에서 특정 사건이 발생할 승산은 아래와 같이 구할 수 있다.
관심집단의 승산 = $$$\dfrac{\dfrac{c}{c+d}}{\dfrac{d}{c+d}} = \dfrac{c}{d}$$$
- 승산비는 아래와 같이 구할 수 있다.
승산비 = $$$\dfrac{\dfrac{a}{b}}{\dfrac{c}{d}} = \dfrac{ad}{bc}$$$
2. 카이제곱 검정 (Chi-squared test, 교차분석)
- 카이제곱 검정에서의 검정 통계량 $$$\chi^2$$$ 값은 편차의 제곱값을 기대빈도로 나눈 값들을 합한것이다.
$$$\chi^2 = \sum\limits_{i=1}^{k} \dfrac{(O_i-E_i)^2}{E_i}$$$
$$$k$$$: 구별 범주의 수 (남, 여 이라면 2)
$$$O_i$$$: i번째 범주에 대한 관측값 (남자가 12명)
$$$E_i$$$: i번째 범주에 대한 기대빈도값 (남자 기대빈도 10명)
- 카이제곱 검정은 적합도 검정 (goodness of fit test), 독립성 검정 (test of independence), 동질성 검정 (test of homogeneity) 에 사용될 수 있다.
- 카이제곱 검정은 범주형 자료에서 범주간 유의미한 차이가 존재하는지 안하는지 보여주는 분석 방법이다. 관찰된 빈도가 기대되는 빈도와 유의하게 다른지 여부를 검정하기 위해 사용된다.
- 기대빈도는 귀무가설에 따라 계산된다.
- 귀무가설이 기각되면, 범주별 기대빈도의 값과 관측빈도 값의 차이가 충분히 크다고 해석할 수 있다.
- 기대빈도는 관측빈도의 총합에 귀무가설 하에서 범주별 확률을 곱해서 계산한다. 기대빈도의 합과 관측빈도의 합은 귀무가설의 기각 여부에 상관없이 동일하다.
- 카이제곱 검정에서 기대빈도가 5이하인 셀개수가 전체 셀 개수의 20% 를 넘지 않아야 한다. 기대빈도가 5보다 적으면 사례수를 증가시켜 기대빈도를 증가시키든지, 피셔의 정확검정을 사용해야한다.
3. 적합도 검정 by 카이제곱 검정
3-1. 개념
- 변수가 1개이고 이 변수가 2개 이상의 범주를 가질 때 사용하는 일변량 분석 방법이다.
ID | 거주 지역 |
---|---|
1 | 서울 |
2 | 인천 |
3 | 인천 |
4 | 경기 |
... | ... |
- 적합도 검정은 표본 집단의 분포가 주어진 특정 분포를 따르고 있는지 검정하는 방법이다.
- 적합도 검정을 할 때, 데이터에서의 범주는 상호 배타적이어야한다.
- 귀무가설은 표본 집단의 분포가 주어진 특정 분포를 따른다 이다.
- 관찰 빈도와 기대 빈도의 차이가 클수록 귀무가설을 기각할 확률이 높아진다.
- 적합도 검정을 할 때, 자유도는 (범주의 수) - 1 로 계산한다.
3-2. 계산 예제
- 강의A의 학년별 수강생을 조사하였다. 조사된 데이터와 분할표는 아래와 같다.
ID | 학년 |
---|---|
1 | 3학년 |
2 | 2학년 |
3 | 3학년 |
4 | 1학년 |
... | ... |
1학년 | 2학년 | 3학년 | 4학년 | 합계 |
---|---|---|---|---|
100 | 120 | 130 | 150 | 300 |
- 귀무가설은 학년별 수강생의 분포가 동일하다 (uniform distribution) 로 설정한다. 그러면 기대확률과 기대빈도는 아래와 같이 구해진다.
1학년 | 2학년 | 3학년 | 4학년 | 합계 | |
---|---|---|---|---|---|
관측빈도 | 100 | 120 | 130 | 150 | 300 |
기대확률 | 0.25 | 0.25 | 0.25 | 0.25 | 1.0 |
기대빈도 | 125 | 125 | 125 | 125 | 500 |
- 검정통계량으로 카이제곱값을 구한다.
$$$\chi^2 = \sum\limits_{i=1}^k \dfrac{(O_i-E_i)^2}{E_i}$$$
$$$= \sum\limits_{i=1}^4 \dfrac{(O_i-E_i)^2}{E_i}$$$
$$$= \dfrac{(O_1-E_1)^2}{E_1} + \dots + \dfrac{(O_4-E_4)^2}{E_4}$$$
$$$= \dfrac{(100-125)^2}{125} + \dots + \dfrac{(150-125)^2}{125}$$$
$$$= 5+0.2+0.2+5=10.4$$$
- $$$\chi^2=10.4$$$, 자유도는 4-1=3 이며, 유의수준 5%에서, p-value=0.015 이므로 귀무가설 학년별 수강생의 분포가 동일하다 (uniform distribution) 를 기각한다. 즉, 학년별로 수강생의 분포가 동일하지 않다 (uniform distribution 이 아니다.)
4. 독립성 검정 by 카이제곱 검정
4-1. 개념
- 변수 2개이면서, 각 변수가 두 개 이상의 범주로 구성되어있을 때 사용된다. 각 범주가 서로 독립적인지, 서로 연관성이 있는지 검정한다.
- 기대빈도는 두 변수가 서로 상관이 없고 독립적 이라고 기대하는 것을 의미한다. 관측빈도와의 차이를 통해 기대빈도의 진위 여부를 밝힌다.
- 독립성 검정에서 귀무가설은 요인1과 요인2는 독립적이다 로 설정한다.
- 독립성 검정에서 자유도는 ( "변수1의 범주수" - 1 ) * ( "변수2의 범주수" - 1 ) 로 계산한다. 예를들어, 변수1이 학년 (1,2,3,4) 이고 변수2가 학점 (A,B,C,D,F) 이라면 자유도는 (4-1)*(5-1)=12 이다.
4-2. 계산 방법
- 가설설정
귀무가설 $$$H_0$$$ : 요인1과 요인2는 독립적이다
대립가설 $$$H_1$$$ : 요인1과 요인2는 독립적이지 않다.
- 검정통계량 구하기
$$$\chi^2 = \sum\limits_{i=1}^m \sum\limits_{j=1}^n \dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$$
- 유의성 검정
유의수준 5%하에서 p-value 가 0.05보다 작으면, 귀무가설을 기각한다.
5. 동질성 검정 by 카이제곱 검정
- 동질성 검정에서 귀무가설은 모집단은 동질하다 로 설정한다. 예를들어, 남학생 모집단과 여학생 모집단이 선호하는 과목은 동일하다 (두 모집단이 동질하다) 에 관련된 검정을 수행할 수 있다.
- 동질성 검정의 계산 방식은 독립성 검정의 계산 방식과 동일하다. 다만, 개념적인 차이만 있을 뿐이다.
6. 피셔의 정확 검정
- 분할표에서 표본 수가 적거나 표본이 셀에 치우치게 분포되어있다면, 피셔의 정확 검정을 사용한다.
- 범주형 데이터에서 기대빈도가 5 미만인 셀의 개수가 전체 셀 개수의 20%를 넘는 경우, 카이제곱 검정을 사용하면 정확도가 떨어지므로 피셔의 정확 검정을 사용해야한다.
+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.
- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,
- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc
- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.
+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.
댓글
댓글 쓰기