-
Notifications
You must be signed in to change notification settings - Fork 0
(07.10) W01_L03_MAP
https://www.youtube.com/watch?v=LbYCQxKAv2E&list=PLt9QR0WkC4WVszuogbmIIHIIQ2RMI78RC&index=4
진구(2018.07.10):
3장을 듣다보니 Speech Enhancement 공부할 때 배운 내용과 다르다고 느껴진 점이 있어서 전에 공부했던 것을 다시 찾아보았다.
강의에 따르면 p(θ|D)을 argmax한 것을 MAP, p(D|θ)을 argmax한 것을 ML이라고 간단하게 말한다. 하지만 저번에 공부할 때는 이렇게 간단하게 배우지 않았다.
개론 강의다 보니 간략화해서 이야기하는 것 같다.
먼저 ML의 수식은 조건부확률로 나타내지 않는다. argmax L(D;θ) 이게 더 정확한 표현이다. L은 라이클리후드 함수. 물론 라이클리후드 함수를 조건부확률로 쓸 수는 있다.
그리고 MAP라고 간단하게 이야기 했지만 더 specific하게 나눠서 이야기하면 a posteriori를 구해서 추정하는 방법은 Bayesian Estimation이고 이 a priori를 argmax하는 것은 MAP방식으로 풀어낸 것이다, MMSE방식 등으로 다르게 풀어낼 수도 있다.
결론적으로 틀린 말은 없다. 그리고 뒤에서 더 자세하게 나올 지는 모르겠지만 이정도만 알아도 이해하는데 큰 문제 없으니까 심플하게 설명하신거 아닐까? ㅎㅎ
Bayesian estimation을 사용하면 장점이 사전정보를 추정에 집어 넣을 수 있다.
그런데 알파 베타는 여전히 추정해야 한다. 통계학에서는 추정할 때 분포를 많이 활용한다. 이번 강의에서는 베타 distribution이라는 분포가 소개 되었다.
상수 텀이 되는 것들은 수식 전개할 때 생략을 많이한다. 이렇게 할 때 =는 더이상 못쓰고 ∝로 비례한다고 써야 한다.
성빈 : 저번시간의 MLE에 이어 이번시간에는 MAP를 배웠다. MLE가 측정한 데이터를 통해서만 확률을 추정하는것이라면 MAP는 측정한 데이터와 함께 기존에 가지고있던 사전정보(사전정보가 유의미한 정보라면)를 추가해서 확률을 추정하는것이라고 이해하면 될 것 같다. (예전에 잠깐 딥러닝스터디할때 들었던 바이어스? 그런느낌이다)
하지만 강의에서 말한내용만 보자면 데이터의 양이 적지 않고서야 알파,베타 파라미터들이 확률에 영향을 크게 미치지는 않을 것 같다. 딥러닝에서는 학습하는 데이터가 일반적으로 아주 많다고 알고있는데 자세한 적용의 예시들도 알고싶다.
베타분포는 뭔지 모르겠지만 모르겠으니까 일단 외우자.
대하(2018.07.10):
우선 MLE와 MAP의 가장 주요한 차이점이 prior knowledge의 유무라고 설명해주셨다. 물론 이 부분도 중요하지만 나는 좀 더 다른 부분에 초점을 맞추었다.
그것은 아래와 같다. MLE: p(D|θ) MAP: p(θ|D) 에서 θ의 위치이다!
문일철 교수님이 잠깐 언급하셨지만 θ는 machine learning, deep learning model에서의 latent variable, 즉 학습 파라미터로 간주할 수 있다.
θ의 위치는 learning model에서 이 모델이 generative model인지 discriminative model인지 구별하는 척도 중의 하나로써 사용된다. (생성 모델인지 구분모델인지...)
추가로 prior와 Posterior의 차이를 아는 것도 중요하다고 생각한다.
승관(2018.07.10): MAP는 주어진 관측결과와 '사전지식(사전확률)'을 결합해서 최적의 모수를 찾아내는 방법이다.
사전지식이란 말 그대로 직접적으로 관측이 불가능하지만 우리가 알고 있는 정보를 의미한다.
현재 주어진 관측결과를 활용해 사전지식을 업데이트해서 모수를 추정하고자 하는 것이 MAP 접근방식이다.
<장점> MAP는 설계자가 알고 있는 사전지식(사전확률)을 반영한다는 점에서 매우 합리적인 방법으로 여겨진다. 단순히 관측결과에만 의존하는 것보다 기존의 알고 있는 정보를 반영한다는 점에서 실제 인간의 학습방식을 모사하기에 적합하다.
<단점> MAP는 베이즈추론을 기반으로 합니다. 관측결과 뿐만 아니라 사전지식(사전확률)을 활용하기 때문에 사전지식에 대한 모델링이 필요하다. 문제는 사전지식에 대한 모델링이 어렵다는 것이고, 사전지식에 대한 모델링에 따라 추론결과인 사후확률(Posteriori)의 정확도가 크게 좌우된다.