라벨이 categorical data analysis인 게시물 표시

범주형 자료 분석 (categorical data analysis) 방법 003 : 단일표본 T-검정, 대응표본 T-검정, 독립표본 T-검정

1. T-검정 1-1. 개념 - T-검정은 독립변수 X가 범주형이고, 종속변수 Y가 수치형일 때, 두 집단의 평균을 비교하는 검정 방법이다. - T-검정은 두 집단 간 평균을 비교하는 모수적 통계 방법이며, 표본이 정규성, 등분산성, 독립성 등을 만족할 때 사용해야한다. 2. 단일표본 T-검정 (one sample T-test) - 모집단의 평균이 알려져 있는 경우, 표본 집단의 평균과 모집단의 평균이 같은지 검정한다. - 연구자가 측정한 집단의 수는 1개이고, 연구자가 측정한 집단의 평균과 기존의 연구에서 제시된 평균 수치와 비교하는 방법이다. - 검정통계량 t값은 아래와같이 산출한다. $$$t= \dfrac{\bar{X}-\mu}{\dfrac{s}{\sqrt{n}}}$$$ 3. 대응표본 T-검정 (paired sample T-test) - 동일한 집단이 있을 때, 이 집단을 특정 처치 하고, 처지 전과 처치 후의 차이를 알아보는데 사용하는 검정이다. - 표본이 하나, 독립변수가 1개일 때 사용되며, 대응표본 T-검정에 적합한 데이터는 아래와 같다. ID 다이어트약 복용 전 체중 1 66 2 54 3 68 ID 다이어트약 복용 후 체중 1 64 2 51 3 69 - 검정통계량 t값은 아래와같이 구한다. $$$t=\dfrac{\bar{d}-\mu}{\dfrac{s}{\sqrt{n}}}$$$ $$$\bar{d}$$$ : 두 표본집단 평균의 차이 $$$\mu$$$ : 두 모집단 평균의 차이 4. 독립표본 T-검정 (independent sample T-test) - 표본 2개가 서로 다른 모집단에서 추출되었을 때, 사용할 수 있는 분석 방법이다. - 독립된 두 집단의 평균 차이를 검정하는 ...

범주형 자료 분석 (categorical data analysis) 방법 002 : 승산 및 승산비 (odds ratio), 카이제곱 검정, 적합도 검정 (goodness of fit test), 독립성 검정 (test of independence), 동질성 검정 (test of homogeneity), 피셔의 정확 검정

1. 승산 및 승산비 (odds ratio) 1-1. 승산 - 승산이란 특정 사건이 발생할 확률 p를 발생하지 않을 확률 (1-p)로 나눈 값을 의미하며, 아래와 같이 표시될 수 있다. odds = $$$\dfrac{p}{1-p}$$$ - 축구경기에서 한국팀이 독일팀에 승리할 확률을 0.2라고 한다면, 한국팀의 승산은 $$$\dfrac{0.2}{0.8} = \dfrac{1}{4}$$$ 이며, 질 확률이 4배가 높다 라고 해석할 수 있다. 1-2. 승산비 - 승산비 (odds ratio)는 특정 조건에서의 성공 승산값을 다른 조건에서의 성공 승산값으로 나눈 값을 의미하며 아래와 같이 표시될 수 있다. 승산비 = $$$\dfrac{\text{승산1}}{\text{승산2}} = \dfrac{\text{관심집단의 승산}}{\text{비교집단의 승산}}$$$ - 아래표는 이전 포스팅 에서 살펴보았던 이원 분할표의 예시이다. 사건 발생 사건 미발생 합계 관심 집단 a b a+b 비교 집단 c d c+d 합계 a+c b+d a+b+c+d - 관심집단에서 특정 사건이 발생할 승산은 아래와 같이 구할 수 있다. 상대위험도와 수식이 다른점에 주의한다. 관심집단의 승산 = $$$\dfrac{\dfrac{a}{a+b}}{\dfrac{b}{a+b}} = \dfrac{a}{b}$$$ - 비교집단에서 특정 사건이 발생할 승산은 아래와 같이 구할 수 있다. 관심집단의 승산 = $$$\dfrac{\dfrac{c}{c+d}}{\dfrac{d}{c+d}} = \dfrac{c}{d}$$$ - 승산비는 아래와 같이 구할 수 있다. 승산비 = $$$\dfrac{\dfrac{a}{b}}{\dfrac{c}{d}} = \dfrac{ad}{bc}$$$ 2. 카이제곱 검정 (Chi-squared ...

범주형 자료 분석 (categorical data analysis) 방법 001 : 분할표 (contingency table) 분석, 상대위험도 (relative risk)

1. 범주형 자료 분석 개념 - 범주형 자료 분석은 독립변수와 종속변수가 모두 범주형 (명목척도 또는 순서척도)이거나 둘 중 하나가 범주형 데이터일 때 사용되는 분석 방법이다. - 변수를 이루는 각 집단 간에 어떠한 비율차이가 있는지 분석할 때 사용된다. 아래의 데이터 예시는 거주 지역별 (명목척도 범주형) 연소득 (비율척도 수치형)을 나타내며, 지역별로 평균 연소득에 유의한 차이가 있는지 T-검정을 통해 분석할 수 있다. ID 거주지역 연소득 1 인천 5300 2 서울 3500 3 서울 4800 4 경기 3400 ... ... ... - 독립변수와 종속변수의 데이터 유형에 따른 범주형 데이터 분석 방법을 아래와 같이 구분할 수 있다. 독립변수 종속변수 범주형 데이터 분석 방법 범주형 범주형 - 분할표 (contingency table) 분석 - 카이제곱 검정 (교차분석) - 피셔의 정확 검정 (Fisher's exact test) 범주형 수치형 - T-검정 (독립변수에서 범주 (집단)의 수가 2개 이하일때, 예를 들어, 성별변수에서 성별이 남자, 여자) - 분산분석 (독립변수에서 범주 (집단)의 수가 3개 이상일때, 예를 들어, 지역변수에서 지역이 서울, 경기, 부산) 수치형 범주형 - 로지스틱 회귀분석 (logistic regression) 수치형 수치형 - 상관분석 - 회귀분석 2. 분할표 (contingency table) 분석 2-1. 개념 - 분할표를 사용한 범주형 자료분석은 상대위험도 (rela...