라벨이 statistics_probability인 게시물 표시

베이지안 파라미터 추정 (Bayesian parameter estimation) 및 샘플링 방법

이미지
  1. 베이지안 파라미터 추정 1-1. 베이즈 규칙 관점 고찰 - 가설 H에 대한 사후확률은 아래와 같이 베이즈규칙에 의해 표현되며, $$$P(D)$$$ 는 전체 확률의 법칙으로 다시 쓸 수 있다. $$$P(H|D) = \dfrac{P(D|H)P(H)}{P(D)}$$$ $$$= \dfrac{P(D|H)P(H)}  {P(D|H)P(H)+P(D|\sim{H})P(\sim{H})}$$$ H : 가설 D : 데이터 - 가설 H가 여러개라면, 아래와 같이 표현 할 수 있다. $$$P(H_i|D) = \dfrac{P(D|H_i)P(H_i)}{P(D)}$$$, $$$i=1,2,3$$$ $$$= \dfrac{P(D|H_i)P(H_i)}  {P(D|H_1)P(H_1)+P(D|H_2)P(H_2)+P(D|H_3)P(H_3)}$$$, $$$i=1,2,3$$$ $$$=\dfrac{P(D|H_i)P(H_i)}{\sum_{i=1}^{3}P(D|H_i)P(H_i)}$$$ - 가설 H의 개수가 연속형으로 아주 많다면, 아래 처럼 쓸 수 있다. $$$P(H_i|D) = \dfrac{P(D|H_i)P(H_i)}{\int_i P(D|H_i)P(H_i)}$$$ 1-2. 베이지안 파라미터 추정 관점 고찰 - 베이지안 파라미터 추정 관점에서 생각해 보기 위해, 두개의 파라미터를 가지는 선형모형을 가정한다. 예측값 $$$\hat{y}$$$ 는 데이터가 주어졌을 때, 파라미터 $$$\theta_1, \theta_2$$$ 의 결합 사후 분포를 따른다. $$$\hat{y} = \hat{\theta}_1 x + \hat{\theta}_2$$$ $$$\hat{y} \sim P(\hat{\theta}_1,\hat{\theta}_2|D)$$$ - 관측 데이터와 가정한 위의 파라미터의 분포를 가지고, MAP 를 시행해서 최적의 파라미터 (사후분포)를 찾아야한다. 각 파라미터의 사후분포는 아래와 같이 쓸 수 있다. $$$P(\theta_2|D) = \dfrac{P(D|\theta_2)P(\t...

빈도주의 (frequentist) 와 베이즈주의 (bayesian) 통계 관점 (강의 영상 있음)

이 게시글을 기반으로 한 강의 영상이 아래 주소에 있습니다 Frequentist vs Bayesian, Bayesian parameter estimation - 001 빈도주의와 베이즈주의 관점 비교 1. 빈도주의 통계 1-1. 빈도주의 관점에서 해석한 동전 던지기 실험 - 동전던지기 실험에서 빈도주의자는 2가지를 생각한다. 1) 동일한 실험 조건인지 2) 반복 시행할 수 있는지 - 빈도주의자나 베이즈주의자 모두 확률을 불확실성 (Uncertainty) 로 생각한다. 하지만, 불확실성을 생각하는 관점이 다르다. - 빈도주의자는 불확실성이 물리적인 한계 (바람, 각도 등) 에서 오는 무작위성 (randomness) 에 의해 발생한다고 생각한다. - 빈도주의자는 그렇게 발생된 불확실성이 데이터 속에 포함되어 있다고 생각한다. 이러한 불확실성을 내재적 불확실성 (aleatoric uncertainty) 이라고 한다. - 결론적으로, 빈도주의자는 데이터라고하는 것은 내재적 불확실성으로 인해 변화하는 것으로 생각한다. - 변화하는 속성의 불확실성을 데이터에 넣었기 때문에, 파라미터 (실험조건) 은 고정된 것으로 생각한다. - 데이터에 불확실성이 있기 때문에, 통계량을 얻기 위해서는 반복시행이 필요하다. - 빈도주의자가 확률을 구하는 방법은 MLE (Maximum Likelihood Estimation, 최대우도추정법) 을 사용한다. - MLE 는 Likelihood (가능도) 가 최대가 될 때의 파라미터를 최적의 파라미터로 추정하는 방법이다. 1-2. 최대우도추정법 (Maximum Likelihood Estimation, MLE) 1-2-1. 정의 - 데이터는 일반적으로 여러개로 존재한다. 즉, 여러 사람으로 부터 수집된 고혈압 값 여러개가 존재할 수 있고, 이는 결합확률분포가 된다. 아래는 파라미터 $$$\theta$$$ 가 고정되었을 때 (주어졌을 때), 결합확률분포, 즉, 가능도 (likelihood) 를 나타낸 것이다. $$$P(D|\theta) = P(x_1,...

로지스틱 회귀 모형 (logistic regression model)

이미지
1. 로지스틱 회귀 모형 1-1. 데이터 예시 성별(X1) 나이(X2) 체중(X3) 고혈압여부(Y) 1 65 55 1 2 27 62 0 ... ... ... ... 1 24 67 0 - 종속변수는 범주형 (주로 0 또는 1의 이진형태) 1-2. 로지스틱 회귀 모형 종류 - 종속변수가 0 또는 1, 성공 또는 실패와 같은 값을 가지는 이항분포를 따른다면, 이항 로지스틱 회귀 (binomial logistic regression) 이라고 할 수 있다. 일반적으로 가장 많이 사용되는 형태이기 때문에,  간단히 로지스틱 회귀 모형이라고 불린다. - 종속변수가 서울, 경기, 인천 처럼 3개 이상의 범주를 가져 다항분포를 따른다면, 다항 로지스틱 회귀 (multinomial logistic regression) 을 사용할 수 있다. 이 경우, 범주가 3개라면 종속변수를 주로 (3-1)개의 더미변수로 만들어 분석을 하게 된다. - 종속변수가 연령대1, 연령대2, 연령대3 처럼 3개 이상의 순서가 있는 범주를 가지는 경우, 서수 로지스틱 회귀 (ordinal logistic regression) 을 사용할 수 있다. 1-3. 로지스틱 회귀 모형 개념 - 종속변수가 두개의 범주를 가진 이항형인 경우에, 선형회귀 모형을 적용하면, 0 또는 1과는 다른 예측값 (0.3, 6 등) 이 나올 수 있다. 즉, 독립변수와 0과 1을 가지는 종속변수 사이의 관계를 선형회귀 모형은 적절히 모델링 할 수 없기때문에, 로지스틱 회귀라는 새로운 모델링 방법이 필요한 것이다. 2. 로지스틱 모형 정의 - 종속변수의 값으로서 $$$y_i=0$$$ 또는 $$$y_i=1$$$ 로 직접적으로 정확히 추정하기는 어렵다. - 따라서, 0 또...

선형 회귀 모형 (linear regression model)

이미지
1. 선형회귀 모형 overview 1-1. 단순 회귀 분석 (simple linear regression) - 데이터 예시 신장 (X) 체중 (Y) 170 71 175 75 163 61 ... ... - 독립변수1개, 종속변수1개로 이루어진다. - 종속변수는 연속형 (구간척도, 비율척도) 자료이다. - 단순 회귀 분석 모형의 방정식 형태 예시 $$$y = \beta_0 + \beta_1x_1 + \epsilon$$$ - 위 방정식은 실세계의 패턴을 모델링한다. 따라서, 우리가 어쩔수 없는 에러 $$$\epsilon$$$ 항이 방정식에 포함되어있다. - 위의 true 모형은 사실상 우리가 알 수 없는 것이고, 이것과 가장 근사하게, 즉, $$$\epsilon$$$ 을 최소화하면서 (최소 제곱 추정법 등 사용) , 회귀계수들 $$$\beta$$$ 를 추정된 회귀계수 $$$\hat{\beta}$$$ 로 추정한다. 그러면 $$$\epsilon$$$ 항이 없어진 아래의 추정된 선형회귀모형 방정식을 얻을 수 있다. $$$\hat{y} = \hat{\beta}_0 + \hat{\beta}_1x_1$$$ 1-2. 다중 회귀 분석 (multiple linear regression) - 데이터 예시 신장 (X1) 성별 (X2) 체중 (Y) 170 1 71 175 1 75 163 2 61 ... ... ... - 독립변수2개 이상, 종속변수1개로 이루어진다. - 다중 회귀 분석 모형의 방정식 형태 예시 $$$y = \beta_0 + \beta_1x_1+\beta_2x_2 + \epsil...

부호 검정 (sign test)

이미지
1. 개념 - 중앙값이 M을 가지는 연속적 데이터 모집단 P를 가정한다. - P에서 크기 n으로 표본을 추출한다고 가정한다. - 위 표본으로부터 모집단의 중앙값이 특정값과 차이가 있는지 비모수적으로 검정하는 방법이 부호검정이다. 2. 검정 방법 2-1. 가설 설정 $$$H_0:M=M_0$$$ $$$H_1:M > M_0 \text{ or } M < M_0 \text{ or } M \ne M_0$$$ 2-2. 검정 통계량 계산 추출된 표본 = $$$\{Y_1, Y_2, \cdots, Y_n\}$$$ $$$R = \sum\limits_{i=1}^n S_i = M_0 \text{ 보다 큰 } Y_i \text{ 들의 개수 }$$$ $$$S_i=\begin{cases} 1 & \text{if } (Y_i-M_0)>0\\0 & \text{if } (Y_i-M_0)<0\end{cases}$$$ $$$(Y_i-M_0)=0$$$ 인 경우가 발생할 때 마다, 표본에서 제외하고, 표본의 개수에 -1을 한다. 2-3. 기각 여부 $$$H_1:M>M_0$$$ 일 때, 기각역은 $$$R>C_{\alpha}$$$ $$$H_1:M<M_0$$$ 일 때, 기각역은 $$$R<n-C_{\alpha}$$$ $$$H_1:M\ne M_0$$$ 일 때, 기각역은 $$$R\ge C_{\frac{\alpha}{2}}$$$ 또는 $$$R\le C_{\frac{\alpha}{2}}$$$ 2-4. 고찰 - 귀무가설 하에서, 통계량 R 은 이항분포 $$$B(n,\frac{1}{2})$$$ 를 따른다. - 표본에서 임의의 한 개의 데이터값 $$$Y_i$$$ 가 $$$M_0$$$ 보다 클 확률 및 작을 확률이 모두 $$$\dfrac{1}{2}$$$ 이기 때문이다. - 따라서, 표본 중 r개가 $$$M_0$$$ 보다 클 확률은 아래와 같이 된다. $$$P(R=r|H_0) = \begin{pmatrix} n\\r \end{pmatrix} \left...

윌콕슨 순위 합 검정 (Wilcoxon rank sum test) = 만-휘트니 U 검정 (Mann–Whitney U test) = Mann-Whitney-Wilcoxon (MWW)

이미지
1. 개념 - 두 개의 표본이 있을 때, 이 두 표본의 중앙값에 차이가 있는지 검정하는 비모수적 방법이다. - 두 개의 표본을 합한 결합표본을 오름차순 정렬했을 때 생성되는 순위값을 각 표본의 원본 데이터에 부여하고, 부여된 순위를 합하는 과정을 통해 검정한다. - 두 표본은 동일한 분포를 가지며 독립된 두개의 모집단에서 추출되었다는 가정이 필요하다. 2. 검정 방법 2-1. 가설 설정 - 두 모집단 중앙값의 차를 $$$\Delta$$$ 라고 둔다. $$$H_0$$$ :  $$$\Delta=0$$$ (두 모집단의 중앙값에 차이가 없다) $$$H_1$$$ :  $$$\Delta>0$$$ or  $$$\Delta<0$$$ or  $$$\Delta\ne 0$$$ (두 모집단의 중앙값에 차이가 있다) 2-2. 검정 통계량 계산 - 두 표본 중 하나의 표본 기준으로 검정통계량값을 계산한다. - 아래에서는 두 표본 i, j 중 i 기준으로 작성함. $$$\mu_w = \mathbb{E}[R_{i}] = n_i \times \dfrac{N+1}{2}$$$ $$$\sigma_w = \sqrt{\dfrac{n_i n_j (N+1)}{12}}$$$ $$$W_i = \sum\limits_{i=1}^{n_i}R_i$$$ $$$Z = \dfrac{W_i-\mu_w}{\sigma_w}$$$ where, $$$n_i$$$ = 표본i의 크기 $$$n_j$$$ = 표본j의 크기 $$$N$$$ = 표본 i와 j를 결합한 표본의 크기 $$$\mu_w = \mathbb{E}[R_{i}]$$$ = 표본i에서 순위(rank) 의 기대값 $$$W_i$$$ = 표본i의 순위 합 2-3. 기각 여부 - 계산된 Z 값이 정의된 significance level $$$\alpha$$$ 하에서, 기각역을 벗어나는 경우 $$$H_0$$$ 를 기각한다. - 대립가설의 부등호에 따라 양측검정, 단측검정을 할 수 있다. 3. 예시 3-1. 데이터 정의 표본1 = {123....

비모수적 통계 방법 (non-parametric statistics)

1. 개념  - 모수적 통계 방법은 데이터가 생성된 모집단에 대한 분포, 즉, 모수를 특정 조건으로 가정한다. 예를 들어, t-검정을 문제 없이 사용하기 위해서는 데이터가 정규성을 따른다는 조건을 만족해야한다. - 왜냐하면, 모수를 통계적으로 추론할 때, 모집단에서 추출된 표본의 특성을 분석하게 되고, 이를 바탕으로 "모수가 어떠하다" 라고 추론을 하기 때문에, 모집단에 대한 가정 (모수가 어떠해야한다 라는 가정)    중심극한정리 관련 내용 추가 필요 - 비모수적 통계 방법은 모집단에 대한 분포가 어떤 조건을 만족해야한다는 가정없이 사용 가능한 방법이다. - 비모수적 통계 방법에서는 평균과 같은 모수의 특성 대신 순위(rank) 나 부호(sign) 등의 통계량을 사용한다. - 비모수 통계 방법의 장점   - 표본의 개수가 10개 미만일 때 사용가능하다.   - 모수적 가정이 잘못되어 발생할 수 있는 분석 및 검정 오류의 가능성이 작다.   - 순위나 부호 등의 통계량을 사용하는 이유로 이상값에 따른 영향을 적게 받는다. - 비모수적 통계 방법의 단점   - 모수적 통계 방법보다 검정력이 낮다.   - 자료의 수가 많아질수록 계산이 복잡해 진다. 2. 모수적 / 비모수적 통계 검정 방법 비교 모수적 통계 검정 비모수적 통계 검정 1 표본 - 단일 표본 t-검정 (one Sample t-test) - 부호 검정 (sign test) - 윌콕슨 부호 순위 검정 (Wilcoxon signed rank test) 2 표본 - 독립 표본 t-검정 (independent samples t-test) - 윌콕슨 순위 합 검정 (Wilcoxon rank sum test) - 다른 이름 - 만-휘트니 U 검정 ( Mann–Whitney U test) - Mann-Whitney-Wilcoxo...

런 검정 (Run test)

이미지
1. 개념  - H, T 와 같이 두 종류의 측정값이 연속적으로 생성된다고 하자. 예를 들어, 측정된 데이터는 아래와 같을 수 있다. T, H, H, T, H, H - 위와 같은 측정값들이 특정 패턴 없이 나타났는지 검정하는 방법이 런검정이다. - 동일한 측정값이 이루는 하나의 덩어리를 한 개의 런 이라고 하며, 위의 측정값은 아래와 같이 4개의 런을 갖는 것으로 볼 수 있다. T / H, H / T / H, H - 측정값이 이진 데이터가 아니라면, 이진 데이터로 변환해야 한다. - 런검정을 사용하기 위해서는 데이터가 이진 (binary) 데이터이어야 한다. - 이진 데이터가 아니라면, 데이터를 이진 데이터로 변환해야 한다. - 아래의 데이터가 있을 때, 이 데이터의 평균은 3.8이다 2, 4, 2, 5, 6 - 3.8을 기준으로 데이터를 아래와 같이 이진화할 수 있다. 0, 1, 0, 1, 1 - 평균 이외에 중앙값, 최빈값 등의 기준값을 사용할 수 있다. 2. 검정 방법 2-1. 가설 설정 $$$H_0$$$ : 측정값들이 무작위 패턴을 보인다. $$$H_1$$$ : 측정값들이 무작위 패턴을 보이지 않는다. 2-2. 검정 통계량 계산 - 대표본 및 소표본의 공식이 약간 다르지만, 대표본 기준으로 설명한다. $$$\mu = \dfrac{2n_1n_2}{n_1+n_2}+1$$$ $$$\sigma^2 = \dfrac{2n_1n_2(2n_1n_2-n_1-n_2)}{(n_1+n_2)^2(n_1+n_2-1)}$$$ $$$z=\dfrac{r-\mu}{\sigma}$$$ $$$n_1, n_2$$$ : 이진화된 측정값에서 각 종류의 개수 r : 런 개수 $$$n = n_1 + n_2$$$ : 측정값의 총개수 2-3. 기각 여부 - 계산된 z 값이 기각역을 벗어나는 경우 $$$H_0$$$ 를 기각한다. 기각역은 significance level $$$\alpha=0.05$$$로 사용하고, 양측검정일 때, 하한 = -1.96, 상한 = 1.96 이다. 3. 예시 - 동전...