범주형 자료 분석 (categorical data analysis) 방법 001 : 분할표 (contingency table) 분석, 상대위험도 (relative risk)

+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.

- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,

- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc

- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.


+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.



1. 범주형 자료 분석 개념

- 범주형 자료 분석은 독립변수와 종속변수가 모두 범주형 (명목척도 또는 순서척도)이거나 둘 중 하나가 범주형 데이터일 때 사용되는 분석 방법이다.

- 변수를 이루는 각 집단 간에 어떠한 비율차이가 있는지 분석할 때 사용된다. 아래의 데이터 예시는 거주 지역별 (명목척도 범주형) 연소득 (비율척도 수치형)을 나타내며, 지역별로 평균 연소득에 유의한 차이가 있는지 T-검정을 통해 분석할 수 있다.

ID 거주지역 연소득
1 인천 5300
2 서울 3500
3 서울 4800
4 경기 3400
... ... ...

- 독립변수와 종속변수의 데이터 유형에 따른 범주형 데이터 분석 방법을 아래와 같이 구분할 수 있다.

독립변수 종속변수 범주형 데이터 분석 방법
범주형 범주형 - 분할표 (contingency table) 분석
- 카이제곱 검정 (교차분석)
- 피셔의 정확 검정 (Fisher's exact test)
범주형 수치형 - T-검정 (독립변수에서 범주 (집단)의 수가 2개 이하일때, 예를 들어, 성별변수에서 성별이 남자, 여자)
- 분산분석 (독립변수에서 범주 (집단)의 수가 3개 이상일때, 예를 들어, 지역변수에서 지역이 서울, 경기, 부산)
수치형 범주형 - 로지스틱 회귀분석 (logistic regression)
수치형 수치형 - 상관분석
- 회귀분석



2. 분할표 (contingency table) 분석

2-1. 개념

- 분할표를 사용한 범주형 자료분석은 상대위험도 (relative risk)와 승산비 (odds ratio)를 통해서 시행될 수 있다.

- 범주형 자료의 개수가 1개 (성별)라면 일원 분할표 (one-way contingency table)를 사용하고, 2개이면 (성별, 지역) 이원 분할표 (two-way contingency table)을 사용하며, 3개이상(성별, 지역, 고혈압유무)이면 다원 분할표 (multi-way contingency table)를 사용한다.

- 분할표에서 행에는 독립변수, 열에는 종속변수를 배치하며, 행과 열의 마지막에는 총계 데이터를 표시한다.

- 일원 분할표와 소스 데이터의 예시는 아래와 같다.

ID 흡연
1 매우많음
2 가끔
3 매우많음
4 비흡연
... ...

매우많음 가끔 비흡연 합계
8 12 7 27

- 이원 분할표와 소스 데이터의 예시는 아래와 같다.

ID 성별 흡연
1 매우많음
2 가끔
3 매우많음
4 비흡연
... ... ...

매우많음 가끔 비흡연 합계
4 5 3 12
3 3 6 12
합계 7 8 9 24



3. 상대위험도 (relative risk)

3-1. 개념

- 상대위험도는 관심 집단의 특정 사건 발생률 (위험률)과 비교집단의 특정 사건 발생률 (위험률)을 나누어 비율 (ratio)를 구한 값이다.

- 산출된 비율을 통해, 관심 집단에서 특정 사건이 비교집단보다 더 빈번하게 발생하는지 등을 파악할 수 있다.

3-2. 상대위험도 계산

- 상대위험도는 이원 분할표로 집계된 데이터를 통해 계산할수 있으며, 아래의 공식을 따른다.

상대위험도 (RR) = $$$\dfrac{\text{관심 집단의 위험률}}{\text{비교 집단의 위험률}} = \dfrac{\dfrac{a}{a+b}}{\dfrac{c}{c+d}}$$$


사건 발생 사건 미발생 합계
관심 집단 a b a+b
비교 집단 c d c+d
합계 a+c b+d a+b+c+d

- 상대위험도를 계산하기위한 소스데이터 및 이원분할표의 예시는 아래와 같다.

ID 성별 고혈압
1 1
2 1
3 0
4 1
5 0
... ... ...

고혈압 유 고혈압 무 합계
남 (관심집단) 12 8 20
여 (비교집단) 28 30 58
합계 40 38 78

상대위험도 = $$$\dfrac{\dfrac{a}{a+b}}{\dfrac{c}{c+d}} = \dfrac{\dfrac{12}{12+8}}{\dfrac{28}{28+30}}=1.24$$$

3-2. 상대위험도 계산 결과 해석

상대위험도 계산값 해석
RR < 1 관심집단의 특정사건 발생확률이 비교집단보다 낮다
RR = 1 관심집단의 특정사건 발생이 비교집단과 비교하더 빈번하지도 드물지도 않다.
RR > 1 관심집단의 특정사건 발생확률이 비교집단보다 높다




+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.

- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,

- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc

- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.


+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.

댓글

이 블로그의 인기 게시물

[논문 full 번역 + 이해를 위한 추가설명] CRNN, An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

[논문 full 번역 + 이해를 위한 추가설명] DQN, Playing Atari with Deep Reinforcement Learning

CUDA 와 CuDNN 의 설치, 삭제 및 버전 변경