범주형 자료 분석 (categorical data analysis) 방법 001 : 분할표 (contingency table) 분석, 상대위험도 (relative risk)
+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.
- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,
- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc
- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.
+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.
1. 범주형 자료 분석 개념
- 범주형 자료 분석은 독립변수와 종속변수가 모두 범주형 (명목척도 또는 순서척도)이거나 둘 중 하나가 범주형 데이터일 때 사용되는 분석 방법이다.
- 변수를 이루는 각 집단 간에 어떠한 비율차이가 있는지 분석할 때 사용된다. 아래의 데이터 예시는 거주 지역별 (명목척도 범주형) 연소득 (비율척도 수치형)을 나타내며, 지역별로 평균 연소득에 유의한 차이가 있는지 T-검정을 통해 분석할 수 있다.
ID | 거주지역 | 연소득 |
---|---|---|
1 | 인천 | 5300 |
2 | 서울 | 3500 |
3 | 서울 | 4800 |
4 | 경기 | 3400 |
... | ... | ... |
- 독립변수와 종속변수의 데이터 유형에 따른 범주형 데이터 분석 방법을 아래와 같이 구분할 수 있다.
독립변수 | 종속변수 | 범주형 데이터 분석 방법 |
---|---|---|
범주형 | 범주형 | - 분할표 (contingency table) 분석 - 카이제곱 검정 (교차분석) - 피셔의 정확 검정 (Fisher's exact test) |
범주형 | 수치형 | - T-검정 (독립변수에서 범주 (집단)의 수가 2개 이하일때, 예를 들어, 성별변수에서 성별이 남자, 여자) - 분산분석 (독립변수에서 범주 (집단)의 수가 3개 이상일때, 예를 들어, 지역변수에서 지역이 서울, 경기, 부산) |
수치형 | 범주형 | - 로지스틱 회귀분석 (logistic regression) |
수치형 | 수치형 | - 상관분석 - 회귀분석 |
2. 분할표 (contingency table) 분석
2-1. 개념
- 분할표를 사용한 범주형 자료분석은 상대위험도 (relative risk)와 승산비 (odds ratio)를 통해서 시행될 수 있다.
- 범주형 자료의 개수가 1개 (성별)라면 일원 분할표 (one-way contingency table)를 사용하고, 2개이면 (성별, 지역) 이원 분할표 (two-way contingency table)을 사용하며, 3개이상(성별, 지역, 고혈압유무)이면 다원 분할표 (multi-way contingency table)를 사용한다.
- 분할표에서 행에는 독립변수, 열에는 종속변수를 배치하며, 행과 열의 마지막에는 총계 데이터를 표시한다.
- 일원 분할표와 소스 데이터의 예시는 아래와 같다.
ID | 흡연 |
---|---|
1 | 매우많음 |
2 | 가끔 |
3 | 매우많음 |
4 | 비흡연 |
... | ... |
매우많음 | 가끔 | 비흡연 | 합계 |
---|---|---|---|
8 | 12 | 7 | 27 |
- 이원 분할표와 소스 데이터의 예시는 아래와 같다.
ID | 성별 | 흡연 |
---|---|---|
1 | 남 | 매우많음 |
2 | 남 | 가끔 |
3 | 여 | 매우많음 |
4 | 여 | 비흡연 |
... | ... | ... |
매우많음 | 가끔 | 비흡연 | 합계 | |
---|---|---|---|---|
남 | 4 | 5 | 3 | 12 |
여 | 3 | 3 | 6 | 12 |
합계 | 7 | 8 | 9 | 24 |
3. 상대위험도 (relative risk)
3-1. 개념
- 상대위험도는 관심 집단의 특정 사건 발생률 (위험률)과 비교집단의 특정 사건 발생률 (위험률)을 나누어 비율 (ratio)를 구한 값이다.
- 산출된 비율을 통해, 관심 집단에서 특정 사건이 비교집단보다 더 빈번하게 발생하는지 등을 파악할 수 있다.
3-2. 상대위험도 계산
- 상대위험도는 이원 분할표로 집계된 데이터를 통해 계산할수 있으며, 아래의 공식을 따른다.
상대위험도 (RR) = $$$\dfrac{\text{관심 집단의 위험률}}{\text{비교 집단의 위험률}} = \dfrac{\dfrac{a}{a+b}}{\dfrac{c}{c+d}}$$$
사건 발생 | 사건 미발생 | 합계 | |
---|---|---|---|
관심 집단 | a | b | a+b |
비교 집단 | c | d | c+d |
합계 | a+c | b+d | a+b+c+d |
- 상대위험도를 계산하기위한 소스데이터 및 이원분할표의 예시는 아래와 같다.
ID | 성별 | 고혈압 |
---|---|---|
1 | 남 | 1 |
2 | 여 | 1 |
3 | 여 | 0 |
4 | 여 | 1 |
5 | 남 | 0 |
... | ... | ... |
고혈압 유 | 고혈압 무 | 합계 | |
---|---|---|---|
남 (관심집단) | 12 | 8 | 20 |
여 (비교집단) | 28 | 30 | 58 |
합계 | 40 | 38 | 78 |
상대위험도 = $$$\dfrac{\dfrac{a}{a+b}}{\dfrac{c}{c+d}} = \dfrac{\dfrac{12}{12+8}}{\dfrac{28}{28+30}}=1.24$$$
3-2. 상대위험도 계산 결과 해석
상대위험도 계산값 | 해석 |
---|---|
RR < 1 | 관심집단의 특정사건 발생확률이 비교집단보다 낮다 |
RR = 1 | 관심집단의 특정사건 발생이 비교집단과 비교하더 빈번하지도 드물지도 않다. |
RR > 1 | 관심집단의 특정사건 발생확률이 비교집단보다 높다 |
+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.
- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,
- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc
- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.
+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.
댓글
댓글 쓰기