부호 검정 (sign test)
+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.
- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,
- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc
- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.
+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.
1. 개념
- 중앙값이 M을 가지는 연속적 데이터 모집단 P를 가정한다.
- P에서 크기 n으로 표본을 추출한다고 가정한다.
- 위 표본으로부터 모집단의 중앙값이 특정값과 차이가 있는지 비모수적으로 검정하는 방법이 부호검정이다.
2. 검정 방법
2-1. 가설 설정
$$$H_0:M=M_0$$$
$$$H_1:M > M_0 \text{ or } M < M_0 \text{ or } M \ne M_0$$$
2-2. 검정 통계량 계산
추출된 표본 = $$$\{Y_1, Y_2, \cdots, Y_n\}$$$
$$$R = \sum\limits_{i=1}^n S_i = M_0 \text{ 보다 큰 } Y_i \text{ 들의 개수 }$$$
$$$S_i=\begin{cases} 1 & \text{if } (Y_i-M_0)>0\\0 & \text{if } (Y_i-M_0)<0\end{cases}$$$
$$$(Y_i-M_0)=0$$$ 인 경우가 발생할 때 마다, 표본에서 제외하고, 표본의 개수에 -1을 한다.
2-3. 기각 여부
$$$H_1:M>M_0$$$ 일 때, 기각역은 $$$R>C_{\alpha}$$$
$$$H_1:M<M_0$$$ 일 때, 기각역은 $$$R<n-C_{\alpha}$$$
$$$H_1:M\ne M_0$$$ 일 때, 기각역은 $$$R\ge C_{\frac{\alpha}{2}}$$$ 또는 $$$R\le C_{\frac{\alpha}{2}}$$$
2-4. 고찰
- 귀무가설 하에서, 통계량 R 은 이항분포 $$$B(n,\frac{1}{2})$$$ 를 따른다.
- 표본에서 임의의 한 개의 데이터값 $$$Y_i$$$ 가 $$$M_0$$$ 보다 클 확률 및 작을 확률이 모두 $$$\dfrac{1}{2}$$$ 이기 때문이다.
- 따라서, 표본 중 r개가 $$$M_0$$$ 보다 클 확률은 아래와 같이 된다.
$$$P(R=r|H_0) = \begin{pmatrix} n\\r \end{pmatrix} \left( \dfrac{1}{2} \right)^r \left(\dfrac{1}{2}\right)^{n-r} = \begin{pmatrix} n\\r \end{pmatrix} \left(\dfrac{1}{2}\right)^n $$$
3. 예시
3-1. 데이터 정의
표본 = {121, 118, 122, 107, 113, 132, 118, 115, 106, 121, 114, 115, 132, 106, 125, 116, 123, 114, 109, 124}
3-2. 문제
- 모집단의 중앙값이 115 이상인지 검정한다.
- Significance level $$$\alpha=0.05$$$
- 주어진 조건은 아래와 같다
$$$\sum\limits_{r=14}^{18} \begin{pmatrix} 18\\r \end{pmatrix} \left( \dfrac{1}{2} \right)^{18}=0.154$$$
$$$\sum\limits_{r=15}^{18} \begin{pmatrix} 18\\r \end{pmatrix} \left( \dfrac{1}{2} \right)^{18}=0.038$$$
$$$\sum\limits_{r=11}^{18} \begin{pmatrix} 18\\r \end{pmatrix} \left( \dfrac{1}{2} \right)^{18}=0.2304$$$
3-3. 가설 설정
$$$H_0:M=115$$$
$$$H_1:M>115$$$
3-4. 검정통계량 계산
- $$$Y_i-M_0$$$ 계산
{121-115, 118-115, 122-115, 107-115, 113-115, 132-115, 118-115, 115-115, 106-115, 121-115, 114-115, 115-115, 132-115, 106-115, 125-115, 116-115, 123-115, 114-115, 109-115, 124-115}
= {6, 3, 7, -8, -2, 17, 3, 0, -9, 6, -1, 0, 17, -9, 10, 1, 8, -1, -6, 9}
- R 계산
$$$R = \sum\limits_{i=1}^{20} S_{i} = 11 $$$
- n 계산
n = 20 - 2 = 18
2 는 계산된 $$$Y_i-M_0$$$ 에서 0 의 개수
3-5. 기각여부 계산
- 방법1
- 미리정의된 확률값들 (0.038, 0.154) 로 R=14, 15 의 위치를 수직선상에서 대략 가늠하고, R=11의 위치를 유추한다.
- R=11 이 주황색 구간안에 들어가지 않았으므로 귀무가설을 기각하지 못한다.
- 방법2
- $$$P(R\ge 11 | H_0) = 0.2403$$$ 의 확률값이 어느정도 면적을 차지하는지 유추하고, 그 면적이 0.05 안에 들어가는지 확인한다.
https://www.youtube.com/watch?v=TQh5BKDO6ic
+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.
- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,
- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc
- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.
+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.
댓글
댓글 쓰기