빈도주의 (frequentist) 와 베이즈주의 (bayesian) 통계 관점 (강의 영상 있음)

+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.

- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,

- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc

- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.


+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.



이 게시글을 기반으로 한 강의 영상이 아래 주소에 있습니다

Frequentist vs Bayesian, Bayesian parameter estimation - 001 빈도주의와 베이즈주의 관점 비교



1. 빈도주의 통계

1-1. 빈도주의 관점에서 해석한 동전 던지기 실험

- 동전던지기 실험에서 빈도주의자는 2가지를 생각한다.

1) 동일한 실험 조건인지

2) 반복 시행할 수 있는지

- 빈도주의자나 베이즈주의자 모두 확률을 불확실성 (Uncertainty) 로 생각한다. 하지만, 불확실성을 생각하는 관점이 다르다.

- 빈도주의자는 불확실성이 물리적인 한계 (바람, 각도 등) 에서 오는 무작위성 (randomness) 에 의해 발생한다고 생각한다.

- 빈도주의자는 그렇게 발생된 불확실성이 데이터 속에 포함되어 있다고 생각한다. 이러한 불확실성을 내재적 불확실성 (aleatoric uncertainty) 이라고 한다.

- 결론적으로, 빈도주의자는 데이터라고하는 것은 내재적 불확실성으로 인해 변화하는 것으로 생각한다.

- 변화하는 속성의 불확실성을 데이터에 넣었기 때문에, 파라미터 (실험조건) 은 고정된 것으로 생각한다.

- 데이터에 불확실성이 있기 때문에, 통계량을 얻기 위해서는 반복시행이 필요하다.

- 빈도주의자가 확률을 구하는 방법은 MLE (Maximum Likelihood Estimation, 최대우도추정법) 을 사용한다.

- MLE 는 Likelihood (가능도) 가 최대가 될 때의 파라미터를 최적의 파라미터로 추정하는 방법이다.

1-2. 최대우도추정법 (Maximum Likelihood Estimation, MLE)

1-2-1. 정의

- 데이터는 일반적으로 여러개로 존재한다. 즉, 여러 사람으로 부터 수집된 고혈압 값 여러개가 존재할 수 있고, 이는 결합확률분포가 된다. 아래는 파라미터 $$$\theta$$$ 가 고정되었을 때 (주어졌을 때), 결합확률분포, 즉, 가능도 (likelihood) 를 나타낸 것이다.

$$$P(D|\theta) = P(x_1,x_2, \dots, x_n | \theta)$$$

- 아래는 가능도가 최대가 될 때의 파라미터 $$$\theta$$$ 를 최적의 $$$\theta$$$ 로 표시하는 최대우도추정법 (MLE) 를 표현한 식이다.

$$$\hat{\theta}_{MLE}^* = \arg_{\theta}\max{P(D|\theta)}$$$

1-2-2. 계산 방법

- 결합확률분포로 표현된 식은, 다양한 조합을 고려해야해서 계산이 어렵다.

- 표본 추출이 i.i.d (independent, identically distributed) 를 만족하는 방법으로 시행되었다면, 결합확률을 곱하기로 표현할 수 있다.

$$$\prod_{i=1}^{n} P(x_i|\theta) = P(x_1|\theta) \times \cdots \times P(x_n|\theta)$$$

- 방정식에서 특정 값을 정확히 구하는 문제가 아니라, 최대값을 구하는 문제이므로 단조증가함수인 로그함수를 양변에 적용해도 최대값을 구하는 결과에 영향을 미치지 않는다. 하지만, 우변의 곱하기가 더하기로 바뀌면서 미분을 적용하기 좋은 형태가 된다. 이렇게 가능도에 로그를 적용한 것을 log-likelihood 라고 한다.

$$$\log{\prod_{i=1}^{n} P(x_i|\theta)} = \log{P(x_1|\theta) \times \cdots \times P(x_n|\theta)} $$$

$$$= \log{P(x_1|\theta)} + \cdots + \log{P(x_n|\theta)}$$$

- 모형의 파라미터 $$$\theta_i$$$ 가 여러개라면, 각 파라미터로 편미분해서, 각각 최대값을 계산하면 된다. 위의 예시에서는 파라미터가 $$$\theta$$$ 하나이므로 $$$\theta$$$ 에 관해 편미분 (또는 미분) 하고 0으로 두어 식을 정리해서 최대가 되는 지점을 찾고 이로부터 $$$\hat{\theta}_{MLE}^{*}$$$ 를 찾는다.

$$$\dfrac{\partial}{\partial \theta} \log{\prod_{i=1}^{n} P(x_i|\theta)} = \dfrac{\partial}{\partial \theta} \{ \log{P(x_1|\theta)} + \cdots + \log{P(x_n|\theta)}  \} = 0$$$   $$$\rightarrow$$$   $$$\hat{\theta}_{MLE}^{*}$$$

1-2-3. MLE 방법으로 Gaussian PDF 의 모수 $$$\mu, \sigma$$$ 를 추정하는 예시

- Gaussian PDF 는 아래처럼 정의된다.

$$$p(x;\mu,\sigma) = \dfrac{1}{\sqrt{2\pi\sigma^2}} \exp \left\{ \dfrac{-(x-\mu)^2}{2\sigma^2} \right\}$$$

- 위에서 구했었던 log-likehood 모양을 작성해 본다.

$$$\ln{\prod_{i=1}^n P(x_i|\mu,\sigma)}= \sum\limits_{i=1}^n \ln{P(x_i|\mu,\sigma)}$$$

- 위의 우변에 Gaussian PDF 를 대입하고 정리한다.

$$$\ln{\prod_{i=1}^n P(x_i|\mu,\sigma)}= \sum\limits_{i=1}^n \ln{ \dfrac{1}{\sqrt{2\pi\sigma^2}} \exp \left\{ \dfrac{-(x-\mu)^2}{2\sigma^2} \right\} }$$$

$$$= -\dfrac{n}{2}\ln{2\pi} - n \ln{\sigma} - \dfrac{1}{2\sigma^2}\sum\limits_{i=1}^n (x_i-\mu)^2$$$

$$$=L(x,\mu,\sigma)$$$

- 위의 $$$L(x,\mu,\sigma)$$$ 식에서 $$$\mu$$$ 와 $$$\sigma$$$ 로 각각 편미분해서 추정값을 구할 수 있다.

$$$\dfrac{\partial}{\partial \mu} L(x,\mu,\sigma) = 0 \rightarrow \hat{\mu}_{MLE}^* = \dfrac{1}{n} \sum\limits_{i=1}^n x_i$$$

$$$\dfrac{\partial}{\partial \sigma} L(x,\mu,\sigma) = 0 \rightarrow \hat{\sigma}_{MLE}^{2 \; *} = \dfrac{1}{n} \sum\limits_{i=1}^n (x_i-\hat{\mu})$$$


1-2-4. MLE 방법으로 동전의 앞면이 나올 확률 p (이항분포의 모수) 를 추정하는 예시

- 이항분포의 PMF 는 아래처럼 정의된다.

$$$P(h;n,\theta) =  \begin{pmatrix} n\\r \end{pmatrix}\theta^h(1-\theta)^{n-h}$$$

- 양변에 로그를 적용하고 $$$\theta$$$ 로 편미분하고 정리해서 0으로 둔다.

$$$\dfrac{\partial}{\partial \theta} \ln{P(h;n,\theta)} = \dfrac{\partial}{\partial \theta} \ln{\begin{pmatrix} n\\r \end{pmatrix}\theta^h(1-\theta)^{n-h}}$$$

$$$=  \dfrac{\partial}{\partial \theta} \left\{\ln{\begin{pmatrix} n\\r \end{pmatrix}}+h\ln{\theta}+ (n-h)\ln{(1-\theta)}\right\}$$$

$$$=\dfrac{h}{\theta}-\dfrac{n-h}{1-\theta}=0$$$

- 위의 식을 정리해서 $$$\theta$$$ 에 관해 정리하면, 최적의 추정된 $$$\theta$$$ 가 된다. 그리고 이 $$$\dfrac{h}{n}$$$ 은 우리가 확률을 구할 때 흔히 사용하는 방법이며, 우리는 빈도주의자 관점으로 MLE 방법을 사용해 확률을 구해왔던 것을 의미한다.

$$$\hat{\theta}_{MLE}^{*} = \dfrac{h}{n}$$$

1-2-5. MLE 방법 고찰

- MLE 방법으로 모수를 추정할 경우, 점추정과 같이 특정 값으로 모수가 추정됨을 알 수 있다.

- 방정식의 해를 찾을 때, 위와 같은 방식으로 대수적 방법이 부적합한 경우에는 수치적 방법 (뉴턴 방법 등) 으로 구할 수도 있다.



2. 베이즈주의 통계

2-1. 베이즈주의 관점에서 해석한 동전 던지기 실험

- 동전던지기 실험에서 베이즈주의자는 실험을 다른 조건 (각도, 높이 등) 으로 할 수 있다고 생각한다.

- 다른 조건으로 실험 한다는 것은 베이즈주의자들은 파라미터를 고정된 것이 아니라 변화하는 속성을 가진 것 이라고 생각함을 의미한다.

- 반면, 베이주의자는 다양한 각각의 파라미터 (실험조건) 에서 나온 데이터는 일단 한번 생성됐으면 고정적인것 으로 본다.

- 즉, 베이즈주의자는 불확실성을 파라미터에 넣었음을 의미하며, 파라미터에 내재된 불확실성을 인식론적 불확실성 (epistemic uncertainty) 라고 한다.

- 베이주의자는 파라미터를 변화하는 것으로 고려하므로, 이것을 확률 변수로 생각한다.

- 확률 변수로 모델링 된 파라미터는, 확률 분포 개념으로 이어진다. 즉, 파라미터 추정이 MLE 방식처럼 점추정이 아니라 분포로 추정됨을 의미한다.

- 베이즈 통계에서 특이한 점은 사전 분포가 있다는 점이다. 사전 분포는 사전지식을 표현하는 분포이다. 현상에 대해 가장 적절한 분포로 표현된 지식을 사전 지식으로 선택하면 된다. 예를들어, 어떤 모집단의 남녀의 비율을 정확히는 모른다고 해본다. 그런데 내가 알고 있는 사전 지식은 우리나라 남녀 비율은 50:50 이라는 것이다. 이 사전지식을 베타분포의 모수인 $$$\alpha=5, \beta=5$$$ 를 사용하여 베타분포로 모델링하면 아래와 같은 사전 분포가 된다.

$$$\dfrac{1}{Beta(5,5)}\theta^{5-1} (1-\theta)^{5-1}$$$

- 가능도에 대한 분포는 MLE 와 MAP 모두 사용하는 분포이다. 일반적으로 결합 확률 분포로 표현된다.

2-2. 최대사후확률 (Maximum A Posterior, MAP)

2-2-1. 정의

- 먼저, 일반적으로 결합확률분포로 표현되는 가능도에 대한 분포를 생각한다.

$$$P(Data|\theta) = P(x_1,x_2,\dots,x_n|\theta)$$$

- 표본 추출이 i.i.d 에 따라 시행되었다면, 결합확률분포를 곱하기로 표현할 수 있다.

$$$\prod_{i=1}^nP(x_i|\theta) = P(x_1|\theta) \times \cdots \times P(x_n|\theta)$$$

- log-likelihood 형태로 표현해 본다.

$$$\ln{\prod_{i=1}^{n}P(x_i|\theta)} = \sum\limits_{i=1}^n \ln{P(x_i|\theta)}$$$

- 사후분포의 정의는 아래와 같으며. 각 요소를 위에서 구해놓은 식들로 예를 들었다.

$$$P(\theta|D) = \dfrac{P(D|\theta)P(\theta)}{P(D)} \propto P(D|\theta)P(\theta)$$$

$$$P(D|\theta)$$$ : 가능도 부분, $$$\sum\limits_{i=1}^n \ln{P(x_i|\theta)}$$$

$$$P(\theta)$$$ : 사전 분포 부분, $$$\dfrac{1}{Beta(5,5)}\theta^{5-1} (1-\theta)^{5-1}$$$

- $$$P(D)$$$ 는 데이터가 발생할 확률이며, 정규화 기능으로 사용된다. 상수이므로 최대최소를 구하거나 가설들의 확률 대소 비교하는데에는 영향을 미치지 않으므로 무시할 수 있다. 하지만, 사후확률을 정확히 구해야하는 상황에서는 생략하지 않고 계산해야한다. 

- 최대사후확률에 들어가는 요소들을 살펴보았다. 최종적으로 최대사후확률은 아래와같이 표현되며, 최대우도추정법과 비교하였다. $$$P(\theta|D)$$$ 와 $$$P(D|\theta)$$$ 의 차이를 주목할 필요가 있다.

$$$\hat{\theta}_{MAP}^{*} = \arg_{\theta}\max{P(\theta|D)}$$$

$$$\hat{\theta}_{MLE}^{*} = \arg_{\theta}\max{P(D|\theta)}$$$

1-2-2. 계산 방법

- MAP 에서 사용하는 확률분포의 종류에 따라서, 사후분포를 대수적 방법으로 풀 수 없는 경우가 발생 할 수 있다. 이때는 경사하강법과 같은 수치적 방법을 사용해야한다.

- 켤레 사전 분포 (conjugate priors)는 사용하는 것은 계산을 간단히 하기위한 방법이다. 사후확률을 계산함에 있어, 사후 확률 분포가 사전 확률 분포와 같은 분포 계열에 속하는 경우, 예를 들어, 베타 사전 분포는 베타 사후 분포를 만든다, 베타 사후 분포로 MAP 가 모델링 되면 베타 분포는 대수적 방법 (미분 후 최대 찾기) 으로 다루기 용이 하기때문에, 대수적 방법으로 해를 찾을 수 있게 된다.

- 위에서 사후 분포라고 언급된 아래의 식은 베이즈 규칙의 정의이다.

$$$P(\theta|D) = \dfrac{P(D|\theta)P(\theta)}{P(D)}$$$

- 베이즈 규칙으로 부터 다양한 방법들이 파생 되었다. 예를 들어, 베이즈 최적화, 베이즈 파라미터 추정, 베이즈 네트워크 등이다.

- 베이즈 규칙을 활용하는 다른 방법으로는, 계산상 편의를 위해  파라미터의 확률 변수 $$$\theta$$$ 와 데이터 확률 변수 D의 위치를 바꿔서 계산할 수 있다는 점이다. 사후분포 (베이즈 규칙) 정의에 따라, 이 값을 계산하려면 $$$P(\theta|D)$$$ 를 계산하든지, $$$\dfrac{P(D|\theta)P(\theta)}{P(D)}$$$ 를 계산 해야한다. 후자의 계산이 간단하면 이 수식을 통해 사후분포를 구할 수 있게 된다. 또는, 어떤 상황에서는 후자의 방법을 사용할 수 밖에 없는데, 예를 들어, 우리가 알고자 하는 것은 $$$P(\theta|D)$$$ 인데, 이것을 모르고 $$$P(D|\theta)$$$ 만 알 때, 우리는 역시 후자의 방법을 사용할 수 있다. 이러한 상황의 대표적인 예시로는 베이즈 분류기가 있다.



3. 빈도주의와 베이즈주의 통계 정리

- 빈도주의와 베이즈주의의 이야기는 1701년에 태어난 영국의 목사 토마스 베이즈로부터 출발한다.

- 베이즈가 작성한 "우연의 원리와 관련된 문제의 해결을 모색하는 에세이" 는 토마스 베이즈 사후 1763년에 그의 친구인 리처드 프라이스가 왕립협회에 제출하였다.

- 이후 프랑스의 수학자이자 천문학자인 피에르 시몽 라플라스 (1749~1827) 가 오늘날의 "베이즈 정리" 로 알려진 공식을 완성하였다.

- 빈도주의는 영국의 통계학자이자 생물학자인 로널드 에일머 피셔에 의해 정립되었다.

- 로널드 에일머 피셔는 토마스 베이즈가 죽은지 120년쯤 뒤인 1890년에 태어났다.

- 동전을 던지는 시행을 여러변 (10번정도) 했을 때, 앞면이 7번 나왔다면, 빈도주의자는 동전의 앞면이 나올 가능성, 즉, 빈도의 정도를 70%라고 생각하는 것이다.

- 동전의 앞면이 나올 사전 지식 (사전 가설에 대한 믿음 또는 신뢰도이며, 이는 인식론적 불확실성을 포함한다) 을 50%라고 가정한다. 여기서 50%라고 할당한 근거는 라플라스의 "이유 불충분의 원리"에 따른 것인데, 다른 사건보다는 하나의 사건을 기대할 만한 어떤 이유가 없는 경우에 가능한 모든 사건에 동일한 확률을 할당해야한다는 내용 (쉽게, 잘 모를때는 각 사건에 동일한 확률 할당) 이다.

이때, 동전을 두번 던졌는데, 모두 앞면이 나왔다고 가정하고 이것은 데이터 라고 볼 수 있다. 베이즈주의자는 동전을 던지면 앞면이 나온다 라는 가설에 대한 나의 믿음의 정도를 50%에서 70%정도로 업데이트 하는 것이며, 업데이트된 70%는 사후확률이며 그만큼 인식론적 불확실성이 감소되었다고 볼 수 있다. 데이터가 새롭게 추가되면, 70%라는 믿음의 정도는 사전 확률로 사용되고, 다시 사후 확률로 업데이트 되어 조정된다. 이렇게 사후확률이 데이터가 추가되면서 업데이트되는 측면은 빈도주의 방법과 다른 측면이라고 볼 수 있고, 현대의 머신러닝 기반의 방법과 잘 부합하는 측면이 있다.



https://youtu.be/MPHMJRhRWq4

https://blog.naver.com/suh88dm/221052713051

http://wiki.hash.kr/index.php/%EC%9D%B4%EC%9C%A0_%EB%B6%88%EC%B6%A9%EB%B6%84%EC%9D%98_%EC%9B%90%EB%A6%AC




+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.

- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,

- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc

- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.


+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.

댓글

이 블로그의 인기 게시물

[논문 full 번역 + 이해를 위한 추가설명] CRNN, An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

[논문 full 번역 + 이해를 위한 추가설명] DQN, Playing Atari with Deep Reinforcement Learning

CUDA 와 CuDNN 의 설치, 삭제 및 버전 변경