선형 회귀 모형 (linear regression model)

이미지
1. 선형회귀 모형 overview 1-1. 단순 회귀 분석 (simple linear regression) - 데이터 예시 신장 (X) 체중 (Y) 170 71 175 75 163 61 ... ... - 독립변수1개, 종속변수1개로 이루어진다. - 종속변수는 연속형 (구간척도, 비율척도) 자료이다. - 단순 회귀 분석 모형의 방정식 형태 예시 $$$y = \beta_0 + \beta_1x_1 + \epsilon$$$ - 위 방정식은 실세계의 패턴을 모델링한다. 따라서, 우리가 어쩔수 없는 에러 $$$\epsilon$$$ 항이 방정식에 포함되어있다. - 위의 true 모형은 사실상 우리가 알 수 없는 것이고, 이것과 가장 근사하게, 즉, $$$\epsilon$$$ 을 최소화하면서 (최소 제곱 추정법 등 사용) , 회귀계수들 $$$\beta$$$ 를 추정된 회귀계수 $$$\hat{\beta}$$$ 로 추정한다. 그러면 $$$\epsilon$$$ 항이 없어진 아래의 추정된 선형회귀모형 방정식을 얻을 수 있다. $$$\hat{y} = \hat{\beta}_0 + \hat{\beta}_1x_1$$$ 1-2. 다중 회귀 분석 (multiple linear regression) - 데이터 예시 신장 (X1) 성별 (X2) 체중 (Y) 170 1 71 175 1 75 163 2 61 ... ... ... - 독립변수2개 이상, 종속변수1개로 이루어진다. - 다중 회귀 분석 모형의 방정식 형태 예시 $$$y = \beta_0 + \beta_1x_1+\beta_2x_2 + \epsil...

부호 검정 (sign test)

이미지
1. 개념 - 중앙값이 M을 가지는 연속적 데이터 모집단 P를 가정한다. - P에서 크기 n으로 표본을 추출한다고 가정한다. - 위 표본으로부터 모집단의 중앙값이 특정값과 차이가 있는지 비모수적으로 검정하는 방법이 부호검정이다. 2. 검정 방법 2-1. 가설 설정 $$$H_0:M=M_0$$$ $$$H_1:M > M_0 \text{ or } M < M_0 \text{ or } M \ne M_0$$$ 2-2. 검정 통계량 계산 추출된 표본 = $$$\{Y_1, Y_2, \cdots, Y_n\}$$$ $$$R = \sum\limits_{i=1}^n S_i = M_0 \text{ 보다 큰 } Y_i \text{ 들의 개수 }$$$ $$$S_i=\begin{cases} 1 & \text{if } (Y_i-M_0)>0\\0 & \text{if } (Y_i-M_0)<0\end{cases}$$$ $$$(Y_i-M_0)=0$$$ 인 경우가 발생할 때 마다, 표본에서 제외하고, 표본의 개수에 -1을 한다. 2-3. 기각 여부 $$$H_1:M>M_0$$$ 일 때, 기각역은 $$$R>C_{\alpha}$$$ $$$H_1:M<M_0$$$ 일 때, 기각역은 $$$R<n-C_{\alpha}$$$ $$$H_1:M\ne M_0$$$ 일 때, 기각역은 $$$R\ge C_{\frac{\alpha}{2}}$$$ 또는 $$$R\le C_{\frac{\alpha}{2}}$$$ 2-4. 고찰 - 귀무가설 하에서, 통계량 R 은 이항분포 $$$B(n,\frac{1}{2})$$$ 를 따른다. - 표본에서 임의의 한 개의 데이터값 $$$Y_i$$$ 가 $$$M_0$$$ 보다 클 확률 및 작을 확률이 모두 $$$\dfrac{1}{2}$$$ 이기 때문이다. - 따라서, 표본 중 r개가 $$$M_0$$$ 보다 클 확률은 아래와 같이 된다. $$$P(R=r|H_0) = \begin{pmatrix} n\\r \end{pmatrix} \left...

윌콕슨 순위 합 검정 (Wilcoxon rank sum test) = 만-휘트니 U 검정 (Mann–Whitney U test) = Mann-Whitney-Wilcoxon (MWW)

이미지
1. 개념 - 두 개의 표본이 있을 때, 이 두 표본의 중앙값에 차이가 있는지 검정하는 비모수적 방법이다. - 두 개의 표본을 합한 결합표본을 오름차순 정렬했을 때 생성되는 순위값을 각 표본의 원본 데이터에 부여하고, 부여된 순위를 합하는 과정을 통해 검정한다. - 두 표본은 동일한 분포를 가지며 독립된 두개의 모집단에서 추출되었다는 가정이 필요하다. 2. 검정 방법 2-1. 가설 설정 - 두 모집단 중앙값의 차를 $$$\Delta$$$ 라고 둔다. $$$H_0$$$ :  $$$\Delta=0$$$ (두 모집단의 중앙값에 차이가 없다) $$$H_1$$$ :  $$$\Delta>0$$$ or  $$$\Delta<0$$$ or  $$$\Delta\ne 0$$$ (두 모집단의 중앙값에 차이가 있다) 2-2. 검정 통계량 계산 - 두 표본 중 하나의 표본 기준으로 검정통계량값을 계산한다. - 아래에서는 두 표본 i, j 중 i 기준으로 작성함. $$$\mu_w = \mathbb{E}[R_{i}] = n_i \times \dfrac{N+1}{2}$$$ $$$\sigma_w = \sqrt{\dfrac{n_i n_j (N+1)}{12}}$$$ $$$W_i = \sum\limits_{i=1}^{n_i}R_i$$$ $$$Z = \dfrac{W_i-\mu_w}{\sigma_w}$$$ where, $$$n_i$$$ = 표본i의 크기 $$$n_j$$$ = 표본j의 크기 $$$N$$$ = 표본 i와 j를 결합한 표본의 크기 $$$\mu_w = \mathbb{E}[R_{i}]$$$ = 표본i에서 순위(rank) 의 기대값 $$$W_i$$$ = 표본i의 순위 합 2-3. 기각 여부 - 계산된 Z 값이 정의된 significance level $$$\alpha$$$ 하에서, 기각역을 벗어나는 경우 $$$H_0$$$ 를 기각한다. - 대립가설의 부등호에 따라 양측검정, 단측검정을 할 수 있다. 3. 예시 3-1. 데이터 정의 표본1 = {123....

비모수적 통계 방법 (non-parametric statistics)

1. 개념  - 모수적 통계 방법은 데이터가 생성된 모집단에 대한 분포, 즉, 모수를 특정 조건으로 가정한다. 예를 들어, t-검정을 문제 없이 사용하기 위해서는 데이터가 정규성을 따른다는 조건을 만족해야한다. - 왜냐하면, 모수를 통계적으로 추론할 때, 모집단에서 추출된 표본의 특성을 분석하게 되고, 이를 바탕으로 "모수가 어떠하다" 라고 추론을 하기 때문에, 모집단에 대한 가정 (모수가 어떠해야한다 라는 가정)    중심극한정리 관련 내용 추가 필요 - 비모수적 통계 방법은 모집단에 대한 분포가 어떤 조건을 만족해야한다는 가정없이 사용 가능한 방법이다. - 비모수적 통계 방법에서는 평균과 같은 모수의 특성 대신 순위(rank) 나 부호(sign) 등의 통계량을 사용한다. - 비모수 통계 방법의 장점   - 표본의 개수가 10개 미만일 때 사용가능하다.   - 모수적 가정이 잘못되어 발생할 수 있는 분석 및 검정 오류의 가능성이 작다.   - 순위나 부호 등의 통계량을 사용하는 이유로 이상값에 따른 영향을 적게 받는다. - 비모수적 통계 방법의 단점   - 모수적 통계 방법보다 검정력이 낮다.   - 자료의 수가 많아질수록 계산이 복잡해 진다. 2. 모수적 / 비모수적 통계 검정 방법 비교 모수적 통계 검정 비모수적 통계 검정 1 표본 - 단일 표본 t-검정 (one Sample t-test) - 부호 검정 (sign test) - 윌콕슨 부호 순위 검정 (Wilcoxon signed rank test) 2 표본 - 독립 표본 t-검정 (independent samples t-test) - 윌콕슨 순위 합 검정 (Wilcoxon rank sum test) - 다른 이름 - 만-휘트니 U 검정 ( Mann–Whitney U test) - Mann-Whitney-Wilcoxo...

런 검정 (Run test)

이미지
1. 개념  - H, T 와 같이 두 종류의 측정값이 연속적으로 생성된다고 하자. 예를 들어, 측정된 데이터는 아래와 같을 수 있다. T, H, H, T, H, H - 위와 같은 측정값들이 특정 패턴 없이 나타났는지 검정하는 방법이 런검정이다. - 동일한 측정값이 이루는 하나의 덩어리를 한 개의 런 이라고 하며, 위의 측정값은 아래와 같이 4개의 런을 갖는 것으로 볼 수 있다. T / H, H / T / H, H - 측정값이 이진 데이터가 아니라면, 이진 데이터로 변환해야 한다. - 런검정을 사용하기 위해서는 데이터가 이진 (binary) 데이터이어야 한다. - 이진 데이터가 아니라면, 데이터를 이진 데이터로 변환해야 한다. - 아래의 데이터가 있을 때, 이 데이터의 평균은 3.8이다 2, 4, 2, 5, 6 - 3.8을 기준으로 데이터를 아래와 같이 이진화할 수 있다. 0, 1, 0, 1, 1 - 평균 이외에 중앙값, 최빈값 등의 기준값을 사용할 수 있다. 2. 검정 방법 2-1. 가설 설정 $$$H_0$$$ : 측정값들이 무작위 패턴을 보인다. $$$H_1$$$ : 측정값들이 무작위 패턴을 보이지 않는다. 2-2. 검정 통계량 계산 - 대표본 및 소표본의 공식이 약간 다르지만, 대표본 기준으로 설명한다. $$$\mu = \dfrac{2n_1n_2}{n_1+n_2}+1$$$ $$$\sigma^2 = \dfrac{2n_1n_2(2n_1n_2-n_1-n_2)}{(n_1+n_2)^2(n_1+n_2-1)}$$$ $$$z=\dfrac{r-\mu}{\sigma}$$$ $$$n_1, n_2$$$ : 이진화된 측정값에서 각 종류의 개수 r : 런 개수 $$$n = n_1 + n_2$$$ : 측정값의 총개수 2-3. 기각 여부 - 계산된 z 값이 기각역을 벗어나는 경우 $$$H_0$$$ 를 기각한다. 기각역은 significance level $$$\alpha=0.05$$$로 사용하고, 양측검정일 때, 하한 = -1.96, 상한 = 1.96 이다. 3. 예시 - 동전...

Object detection 에서 사용되는 IoU (Intersection over Union) 구하는 함수, 좌표상에서 계산 과정 그림 설명

이미지
Object detection 모델을 사용할 때는 정답 박스와 예측된 박스가 얼마나 일치하는지 평가하는 지표가 필요합니다. 이 때, IoU (Intersection over Union) 값이 사용될 수 있으며, 수식적으로 표현하면 아래와 같이 쓸 수 있습니다. $$$IoU = \dfrac{\text{두 박스의 교집합 부분 넓이값}}{\text{두 박스의 합집합 부분 넓이값}}$$$ 아래 함수는 두개의 박스를 입력으로 받아, 두 박스의 IoU 값을 계산 후 반환하는 함수입니다. 코드는 아래 Github 저장소에서 참고했습니다. https://github.com/1297rohit/RCNN/blob/master/RCNN.ipynb 함수 아래에는 실제 좌표상에서 IoU 를 구하기 위해 사용된 연산들을 참고사항으로 설명한 그림을 첨부했습니다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 def  get_iou(bb1, bb2):  # 박스1, 박스2 를 입력으로 받음     assert bb1[ 'x1' ]  <  bb1[ 'x2' ]     assert bb1[ 'y1' ]  <  bb1[ 'y2' ]     assert bb2[ 'x1' ]  <  bb2[ 'x2' ]     assert bb2[ 'y1' ]  <  bb2[ 'y2' ]           # intersection (교집합) 박스의 {(x1=x_left,y1=y_top),...