(07.10) W01_L03_MAP

https://www.youtube.com/watch?v=LbYCQxKAv2E&list=PLt9QR0WkC4WVszuogbmIIHIIQ2RMI78RC&index=4

진구(2018.07.10):
3장을 듣다보니 Speech Enhancement 공부할 때 배운 내용과 다르다고 느껴진 점이 있어서 전에 공부했던 것을 다시 찾아보았다.
강의에 따르면 p(θ|D)을 argmax한 것을 MAP, p(D|θ)을 argmax한 것을 ML이라고 간단하게 말한다. 하지만 저번에 공부할 때는 이렇게 간단하게 배우지 않았다.
개론 강의다 보니 간략화해서 이야기하는 것 같다.
먼저 ML의 수식은 조건부확률로 나타내지 않는다. argmax L(D;θ) 이게 더 정확한 표현이다. L은 라이클리후드 함수. 물론 라이클리후드 함수를 조건부확률로 쓸 수는 있다.
그리고 MAP라고 간단하게 이야기 했지만 더 specific하게 나눠서 이야기하면 a posteriori를 구해서 추정하는 방법은 Bayesian Estimation이고 이 a priori를 argmax하는 것은 MAP방식으로 풀어낸 것이다, MMSE방식 등으로 다르게 풀어낼 수도 있다.
결론적으로 틀린 말은 없다. 그리고 뒤에서 더 자세하게 나올 지는 모르겠지만 이정도만 알아도 이해하는데 큰 문제 없으니까 심플하게 설명하신거 아닐까? ㅎㅎ

Bayesian estimation을 사용하면 장점이 사전정보를 추정에 집어 넣을 수 있다.
그런데 알파 베타는 여전히 추정해야 한다. 통계학에서는 추정할 때 분포를 많이 활용한다. 이번 강의에서는 베타 distribution이라는 분포가 소개 되었다.

상수 텀이 되는 것들은 수식 전개할 때 생략을 많이한다. 이렇게 할 때 =는 더이상 못쓰고 ∝로 비례한다고 써야 한다.

성빈 : 저번시간의 MLE에 이어 이번시간에는 MAP를 배웠다. MLE가 측정한 데이터를 통해서만 확률을 추정하는것이라면 MAP는 측정한 데이터와 함께 기존에 가지고있던 사전정보(사전정보가 유의미한 정보라면)를 추가해서 확률을 추정하는것이라고 이해하면 될 것 같다. (예전에 잠깐 딥러닝스터디할때 들었던 바이어스? 그런느낌이다)

하지만 강의에서 말한내용만 보자면 데이터의 양이 적지 않고서야 알파,베타 파라미터들이 확률에 영향을 크게 미치지는 않을 것 같다. 딥러닝에서는 학습하는 데이터가 일반적으로 아주 많다고 알고있는데 자세한 적용의 예시들도 알고싶다.

베타분포는 뭔지 모르겠지만 모르겠으니까 일단 외우자.

대하(2018.07.10):

우선 MLE와 MAP의 가장 주요한 차이점이 prior knowledge의 유무라고 설명해주셨다. 물론 이 부분도 중요하지만 나는 좀 더 다른 부분에 초점을 맞추었다.

그것은 아래와 같다. MLE: p(D|θ) MAP: p(θ|D) 에서 θ의 위치이다!

문일철 교수님이 잠깐 언급하셨지만 θ는 machine learning, deep learning model에서의 latent variable, 즉 학습 파라미터로 간주할 수 있다.

θ의 위치는 learning model에서 이 모델이 generative model인지 discriminative model인지 구별하는 척도 중의 하나로써 사용된다. (생성 모델인지 구분모델인지...)

추가로 prior와 Posterior의 차이를 아는 것도 중요하다고 생각한다.

승관(2018.07.10): MAP는 주어진 관측결과와 '사전지식(사전확률)'을 결합해서 최적의 모수를 찾아내는 방법이다.

사전지식이란 말 그대로 직접적으로 관측이 불가능하지만 우리가 알고 있는 정보를 의미한다.

현재 주어진 관측결과를 활용해 사전지식을 업데이트해서 모수를 추정하고자 하는 것이 MAP 접근방식이다.

<장점> MAP는 설계자가 알고 있는 사전지식(사전확률)을 반영한다는 점에서 매우 합리적인 방법으로 여겨진다. 단순히 관측결과에만 의존하는 것보다 기존의 알고 있는 정보를 반영한다는 점에서 실제 인간의 학습방식을 모사하기에 적합하다.

<단점> MAP는 베이즈추론을 기반으로 합니다. 관측결과 뿐만 아니라 사전지식(사전확률)을 활용하기 때문에 사전지식에 대한 모델링이 필요하다. 문제는 사전지식에 대한 모델링이 어렵다는 것이고, 사전지식에 대한 모델링에 따라 추론결과인 사후확률(Posteriori)의 정확도가 크게 좌우된다.

(07.10) W01_L03_MAP

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally