범주형 자료 분석 (categorical data analysis) 방법 002 : 승산 및 승산비 (odds ratio), 카이제곱 검정, 적합도 검정 (goodness of fit test), 독립성 검정 (test of independence), 동질성 검정 (test of homogeneity), 피셔의 정확 검정

6월 29, 2022

+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.

- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,

- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc

- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.

+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.

1. 승산 및 승산비 (odds ratio)

1-1. 승산

- 승산이란 특정 사건이 발생할 확률 p를 발생하지 않을 확률 (1-p)로 나눈 값을 의미하며, 아래와 같이 표시될 수 있다.

odds = $$$\dfrac{p}{1-p}$$$

- 축구경기에서 한국팀이 독일팀에 승리할 확률을 0.2라고 한다면, 한국팀의 승산은 $$$\dfrac{0.2}{0.8} = \dfrac{1}{4}$$$ 이며, 질 확률이 4배가 높다 라고 해석할 수 있다.

1-2. 승산비

- 승산비 (odds ratio)는 특정 조건에서의 성공 승산값을 다른 조건에서의 성공 승산값으로 나눈 값을 의미하며 아래와 같이 표시될 수 있다.

승산비 = $$$\dfrac{\text{승산1}}{\text{승산2}} = \dfrac{\text{관심집단의 승산}}{\text{비교집단의 승산}}$$$

- 아래표는 이전 포스팅에서 살펴보았던 이원 분할표의 예시이다.

	사건 발생	사건 미발생	합계
관심 집단	a	b	a+b
비교 집단	c	d	c+d
합계	a+c	b+d	a+b+c+d

- 관심집단에서 특정 사건이 발생할 승산은 아래와 같이 구할 수 있다. 상대위험도와 수식이 다른점에 주의한다.

관심집단의 승산 = $$$\dfrac{\dfrac{a}{a+b}}{\dfrac{b}{a+b}} = \dfrac{a}{b}$$$

- 비교집단에서 특정 사건이 발생할 승산은 아래와 같이 구할 수 있다.

관심집단의 승산 = $$$\dfrac{\dfrac{c}{c+d}}{\dfrac{d}{c+d}} = \dfrac{c}{d}$$$

- 승산비는 아래와 같이 구할 수 있다.

승산비 = $$$\dfrac{\dfrac{a}{b}}{\dfrac{c}{d}} = \dfrac{ad}{bc}$$$

2. 카이제곱 검정 (Chi-squared test, 교차분석)

- 카이제곱 검정에서의 검정 통계량 $$$\chi^2$$$ 값은 편차의 제곱값을 기대빈도로 나눈 값들을 합한것이다.

$$$\chi^2 = \sum\limits_{i=1}^{k} \dfrac{(O_i-E_i)^2}{E_i}$$$

$$$k$$$: 구별 범주의 수 (남, 여 이라면 2)

$$$O_i$$$: i번째 범주에 대한 관측값 (남자가 12명)

$$$E_i$$$: i번째 범주에 대한 기대빈도값 (남자 기대빈도 10명)

- 카이제곱 검정은 적합도 검정 (goodness of fit test), 독립성 검정 (test of independence), 동질성 검정 (test of homogeneity) 에 사용될 수 있다.

- 카이제곱 검정은 범주형 자료에서 범주간 유의미한 차이가 존재하는지 안하는지 보여주는 분석 방법이다. 관찰된 빈도가 기대되는 빈도와 유의하게 다른지 여부를 검정하기 위해 사용된다.

- 기대빈도는 귀무가설에 따라 계산된다.

- 귀무가설이 기각되면, 범주별 기대빈도의 값과 관측빈도 값의 차이가 충분히 크다고 해석할 수 있다.

- 기대빈도는 관측빈도의 총합에 귀무가설 하에서 범주별 확률을 곱해서 계산한다. 기대빈도의 합과 관측빈도의 합은 귀무가설의 기각 여부에 상관없이 동일하다.

- 카이제곱 검정에서 기대빈도가 5이하인 셀개수가 전체 셀 개수의 20% 를 넘지 않아야 한다. 기대빈도가 5보다 적으면 사례수를 증가시켜 기대빈도를 증가시키든지, 피셔의 정확검정을 사용해야한다.

3. 적합도 검정 by 카이제곱 검정

3-1. 개념

- 변수가 1개이고 이 변수가 2개 이상의 범주를 가질 때 사용하는 일변량 분석 방법이다.

ID	거주 지역
1	서울
2	인천
3	인천
4	경기
...	...

- 적합도 검정은 표본 집단의 분포가 주어진 특정 분포를 따르고 있는지 검정하는 방법이다.

- 적합도 검정을 할 때, 데이터에서의 범주는 상호 배타적이어야한다.

- 귀무가설은 표본 집단의 분포가 주어진 특정 분포를 따른다 이다.

- 관찰 빈도와 기대 빈도의 차이가 클수록 귀무가설을 기각할 확률이 높아진다.

- 적합도 검정을 할 때, 자유도는 (범주의 수) - 1 로 계산한다.

3-2. 계산 예제

- 강의A의 학년별 수강생을 조사하였다. 조사된 데이터와 분할표는 아래와 같다.

ID	학년
1	3학년
2	2학년
3	3학년
4	1학년
...	...

1학년	2학년	3학년	4학년	합계
100	120	130	150	300

- 귀무가설은 학년별 수강생의 분포가 동일하다 (uniform distribution) 로 설정한다. 그러면 기대확률과 기대빈도는 아래와 같이 구해진다.

	1학년	2학년	3학년	4학년	합계
관측빈도	100	120	130	150	300
기대확률	0.25	0.25	0.25	0.25	1.0
기대빈도	125	125	125	125	500

- 검정통계량으로 카이제곱값을 구한다.

$$$\chi^2 = \sum\limits_{i=1}^k \dfrac{(O_i-E_i)^2}{E_i}$$$

$$$= \sum\limits_{i=1}^4 \dfrac{(O_i-E_i)^2}{E_i}$$$

$$$= \dfrac{(O_1-E_1)^2}{E_1} + \dots + \dfrac{(O_4-E_4)^2}{E_4}$$$

$$$= \dfrac{(100-125)^2}{125} + \dots + \dfrac{(150-125)^2}{125}$$$

$$$= 5+0.2+0.2+5=10.4$$$

- $$$\chi^2=10.4$$$, 자유도는 4-1=3 이며, 유의수준 5%에서, p-value=0.015 이므로 귀무가설 학년별 수강생의 분포가 동일하다 (uniform distribution) 를 기각한다. 즉, 학년별로 수강생의 분포가 동일하지 않다 (uniform distribution 이 아니다.)

4. 독립성 검정 by 카이제곱 검정

4-1. 개념

- 변수 2개이면서, 각 변수가 두 개 이상의 범주로 구성되어있을 때 사용된다. 각 범주가 서로 독립적인지, 서로 연관성이 있는지 검정한다.

- 기대빈도는 두 변수가 서로 상관이 없고 독립적 이라고 기대하는 것을 의미한다. 관측빈도와의 차이를 통해 기대빈도의 진위 여부를 밝힌다.

- 예를들어, 학년 (1학년, 2학년, 3학년) 범주형 변수 (요인1)과 선호과목 (국어, 영어, 수학) 범주형 변수 (요인2) 간에 서로 연관성이 있는지 아니면 독립적인지 판단할 때 독립성 검정이 사용된다.

- 독립성 검정에서 귀무가설은 요인1과 요인2는 독립적이다 로 설정한다.

- 독립성 검정에서 자유도는 ( "변수1의 범주수" - 1 ) * ( "변수2의 범주수" - 1 ) 로 계산한다. 예를들어, 변수1이 학년 (1,2,3,4) 이고 변수2가 학점 (A,B,C,D,F) 이라면 자유도는 (4-1)*(5-1)=12 이다.

4-2. 계산 방법

- 가설설정

귀무가설 $$$H_0$$$ : 요인1과 요인2는 독립적이다

대립가설 $$$H_1$$$ : 요인1과 요인2는 독립적이지 않다.

- 검정통계량 구하기

$$$\chi^2 = \sum\limits_{i=1}^m \sum\limits_{j=1}^n \dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$$$

- 유의성 검정

유의수준 5%하에서 p-value 가 0.05보다 작으면, 귀무가설을 기각한다.

5. 동질성 검정 by 카이제곱 검정

- 독립성 검정이 2개 변수가 서로 독립인지에 대한 판단이었다면, 동질성 검정은 각 모집단이 서로 동질한지 여부를 검정한다.

- 동질성 검정에서 귀무가설은 모집단은 동질하다 로 설정한다. 예를들어, 남학생 모집단과 여학생 모집단이 선호하는 과목은 동일하다 (두 모집단이 동질하다) 에 관련된 검정을 수행할 수 있다.

- 동질성 검정의 계산 방식은 독립성 검정의 계산 방식과 동일하다. 다만, 개념적인 차이만 있을 뿐이다.

6. 피셔의 정확 검정

- 분할표에서 표본 수가 적거나 표본이 셀에 치우치게 분포되어있다면, 피셔의 정확 검정을 사용한다.

- 범주형 데이터에서 기대빈도가 5 미만인 셀의 개수가 전체 셀 개수의 20%를 넘는 경우, 카이제곱 검정을 사용하면 정확도가 떨어지므로 피셔의 정확 검정을 사용해야한다.

+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.

- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,

- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc

- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.

+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.

이 블로그 검색

Inas AI lab

범주형 자료 분석 (categorical data analysis) 방법 002 : 승산 및 승산비 (odds ratio), 카이제곱 검정, 적합도 검정 (goodness of fit test), 독립성 검정 (test of independence), 동질성 검정 (test of homogeneity), 피셔의 정확 검정

댓글

댓글 쓰기

이 블로그의 인기 게시물

[논문 full 번역 + 이해를 위한 추가설명] CRNN, An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

[논문 full 번역 + 이해를 위한 추가설명] CRAFT, Character Region Awareness for Text Detection

[논문 full 번역 + 이해를 위한 추가설명] DQN, Playing Atari with Deep Reinforcement Learning