부호 검정 (sign test)

+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.

- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,

- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc

- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.


+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.



1. 개념

- 중앙값이 M을 가지는 연속적 데이터 모집단 P를 가정한다.

- P에서 크기 n으로 표본을 추출한다고 가정한다.

- 위 표본으로부터 모집단의 중앙값이 특정값과 차이가 있는지 비모수적으로 검정하는 방법이 부호검정이다.



2. 검정 방법

2-1. 가설 설정

$$$H_0:M=M_0$$$

$$$H_1:M > M_0 \text{ or } M < M_0 \text{ or } M \ne M_0$$$

2-2. 검정 통계량 계산

추출된 표본 = $$$\{Y_1, Y_2, \cdots, Y_n\}$$$

$$$R = \sum\limits_{i=1}^n S_i = M_0 \text{ 보다 큰 } Y_i \text{ 들의 개수 }$$$

$$$S_i=\begin{cases} 1 & \text{if } (Y_i-M_0)>0\\0 & \text{if } (Y_i-M_0)<0\end{cases}$$$

$$$(Y_i-M_0)=0$$$ 인 경우가 발생할 때 마다, 표본에서 제외하고, 표본의 개수에 -1을 한다.

2-3. 기각 여부

$$$H_1:M>M_0$$$ 일 때, 기각역은 $$$R>C_{\alpha}$$$

$$$H_1:M<M_0$$$ 일 때, 기각역은 $$$R<n-C_{\alpha}$$$

$$$H_1:M\ne M_0$$$ 일 때, 기각역은 $$$R\ge C_{\frac{\alpha}{2}}$$$ 또는 $$$R\le C_{\frac{\alpha}{2}}$$$

2-4. 고찰

- 귀무가설 하에서, 통계량 R 은 이항분포 $$$B(n,\frac{1}{2})$$$ 를 따른다.

- 표본에서 임의의 한 개의 데이터값 $$$Y_i$$$ 가 $$$M_0$$$ 보다 클 확률 및 작을 확률이 모두 $$$\dfrac{1}{2}$$$ 이기 때문이다.

- 따라서, 표본 중 r개가 $$$M_0$$$ 보다 클 확률은 아래와 같이 된다.

$$$P(R=r|H_0) = \begin{pmatrix} n\\r \end{pmatrix} \left( \dfrac{1}{2} \right)^r \left(\dfrac{1}{2}\right)^{n-r} = \begin{pmatrix} n\\r \end{pmatrix} \left(\dfrac{1}{2}\right)^n $$$



3. 예시

3-1. 데이터 정의

표본 = {121, 118, 122, 107, 113, 132, 118, 115, 106, 121, 114, 115, 132, 106, 125, 116, 123, 114, 109, 124}

3-2. 문제

- 모집단의 중앙값이 115 이상인지 검정한다.

- Significance level $$$\alpha=0.05$$$

- 주어진 조건은 아래와 같다

$$$\sum\limits_{r=14}^{18} \begin{pmatrix} 18\\r \end{pmatrix} \left( \dfrac{1}{2} \right)^{18}=0.154$$$

$$$\sum\limits_{r=15}^{18} \begin{pmatrix} 18\\r \end{pmatrix} \left( \dfrac{1}{2} \right)^{18}=0.038$$$

$$$\sum\limits_{r=11}^{18} \begin{pmatrix} 18\\r \end{pmatrix} \left( \dfrac{1}{2} \right)^{18}=0.2304$$$

3-3. 가설 설정

$$$H_0:M=115$$$

$$$H_1:M>115$$$

3-4. 검정통계량 계산

- $$$Y_i-M_0$$$ 계산

{121-115, 118-115, 122-115, 107-115, 113-115, 132-115, 118-115, 115-115, 106-115, 121-115, 114-115, 115-115, 132-115, 106-115, 125-115, 116-115, 123-115, 114-115, 109-115, 124-115}

= {6, 3, 7, -8, -2, 17, 3, 0, -9, 6, -1, 0, 17, -9, 10, 1, 8, -1, -6, 9}

- R 계산

$$$R = \sum\limits_{i=1}^{20} S_{i} = 11 $$$

- n 계산

n = 20 - 2 = 18

2 는 계산된 $$$Y_i-M_0$$$ 에서 0 의 개수

3-5. 기각여부 계산

- 방법1


- 미리정의된 확률값들 (0.038, 0.154) 로 R=14, 15 의 위치를 수직선상에서 대략 가늠하고, R=11의 위치를 유추한다.

- R=11 이 주황색 구간안에 들어가지 않았으므로 귀무가설을 기각하지 못한다. 

- 방법2

- $$$P(R\ge 11 | H_0) = 0.2403$$$ 의 확률값이 어느정도 면적을 차지하는지 유추하고, 그 면적이 0.05 안에 들어가는지 확인한다.


- 면적이 주황색 안에 들어가지 않으므로 R=11은 주황색 바깥 영역에 위치한다고 유추할 수 있다.



 https://www.youtube.com/watch?v=TQh5BKDO6ic




+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.

- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,

- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc

- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.


+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.

댓글

이 블로그의 인기 게시물

[논문 full 번역 + 이해를 위한 추가설명] CRNN, An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

[논문 full 번역 + 이해를 위한 추가설명] DQN, Playing Atari with Deep Reinforcement Learning

CUDA 와 CuDNN 의 설치, 삭제 및 버전 변경