Skip to content

kyungwon-lee/GH-Finance-Project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

GH-Finance-Project

Growth Hackers Winter vacation Project : Prediction of default rate using corporate financial statements with 한국어음중개

개요/아이디어

보조지표를 찾는 방법에 KNN과 생존분석이 사용된 이유

1. 한국어음중개 DB에 있는 테이블들을 여신 평가에 전부 사용하고 있지는 않았기에 실제로는 어음 부도에 영향력 있는 변수들이 존재할 수 있다는 것입니다.DB에 축적되어있기만 한 변수들 중에서 정성적으로 유의미한 변수들을 파악하기에는 한계가 존재했고 이를 해결하기 위해 KNN 분류 방법이 사용되었습니다. 테이블에 있는 컬럼명을 보고 단순히 유용하겠다 싶은 것이 아닌 실제 어음 부도 유무를 잘 판별해주는, 근거에 기초한 변수 선택이 필요했기에 분류 방법 중 하나인 KNN이 사용되었습니다.

2. 어음이 부도나는데까지 걸리는 시간에 대한 데이터가 있다면 부도 예상 시간을 생각해 볼 수 있습니다. 실제 부도에 대한 분석을 할 때 생존분석은 주로 사용되는 분석 방법 중 하나이고 본 프로젝트의 경우에도 부도가 날 확률 등을 계산하고 싶었기에 생존분석이 사용되기에 적절했다고 볼 수 있습니다.

설계/모형 설명

1. KNN (K-Nearest Neighbors)
머신러닝을 이용한 분류 방법으로 분류 대상이 주어지면, 대상에 가장 가까운 K개의 사례 중 더 많은 것이 해당하는 쪽으로 분류 해내는 방법입니다.여기서 이웃(neighbors)의 수를 결정하는 것이 중요합니다.너무 많은 이웃을 참조하면 다수결의 결과를 따르는 것이 되므로 underfitting하는 결과를 초래하고, 너무 적은 이웃을 참조하면 아주 일부의 이웃의 결과를 따라가는 것이 되므로 overfitting하는 결과를 초래합니다.

이 방법으로 변수들의 영향력을 각 변수별로 제외했을 때와 제외하지 않았을 때의 예측력의 차이를 기준으로 유의미한 변수를 선정하였습니다.

구체적으로는, 모든 변수들을 포함한 채 예측 성과를 계산하고(basic case), 한 변수씩 제외하여 예측 성과를 계산한 후, basic case로부터 변동치를 계산해 전체 변수들의 평균 변동치를 넘는 변수만을 최종적으로 선별해내는 방법을 사용했습니다.

2. Survival analysis
생존분석은 어떠한 사건이 일어나는 데까지 걸리는 시간을 이용하여 생존함수를 추정하는 분석 방법입니다.

본 프로젝트의 경우는 ‘Right Censored Survival analysis’로 이론을 다음 경우에 한하여만 설명하도록 하겠습니다.Right Censored라 함은 데이터가 특정 값보다 위에 있으나 정확히는 어떤 값인지 알 수 없는 상태를 말합니다.사건이 일어난 경우에는 그 시점을 알고 있지만, 사건이 아직 일어나지 않은 경우에는 그 이후에 사건이 일어나고 그 시점을 알 수 없다는 뜻입니다.

생존분석에서 생존함수는 다음과 같이 정의됩니다.
 S(t) = Pr(T > t)
여기서 T가 right censored data인 경우 T=min(X,C)로 정의되는데, 사건이 일어난 경우는 X 사건이 일어나지 않았으면 그 censoring time을 C라 하여 위와같은 식이 성립합니다.

생존함수 외에 우리가 사용하는 또다른 함수로 위험함수(hazard function)이 있습니다.

위험함수는 특정 시점 t에 사건이 발생할 확률을 말합니다. 

이렇듯 생존함수와 위험함수를 추정하면 생존률과 위험률을 예측할 수 있습니다.
이를 추정하기 위한 방법으로 Cox proportional hazard model(Cox 비례위험모형)을 이용했습니다. 본 모델의 수식은 다음과 같습니다.

 h(t|Z) = h0(t)exp(B^t * Z)
Z: 사건에 영향을 주는 변수들, : 회귀 계수, h0(t) : baselin hazard

이 모델의 특징은 h0 (t)라 하는 baseline hazard가 있다는 것인데, 사건에 영향이 있는 변수들은 모두 시간의 영향을 받지 않고, baseline hazard만이 시간에 관한 함수라는 것입니다.
이 모델을 이용하여 해석을 하는 방법은 다음과 같습니다.
변수가 두개라고 가정을 하면 cox ph model의 형태는
 h(t|Z) = h0(t)exp(B0 + B1Z1 + B2Z2)
로 표현할 수 있습니다.
이 경우 Z1이라는 변수가 한 단위 많아졌을 때 위험률의 증감은 exp(1)로 해석할 수 있습니다.

이로부터 사건에 영향력있는 변수들이 얼마나 영향력이 큰지, 혹은 얼마나 미미한지를 계산할 수 있고, 추가적으로 위험함수와 생존함수의 대응 관계를 이용하여 생존률 역시 계산해 낼 수 있습니다. 

About

Growth Hackers Winter vacation Project : Prediction of default rate using corporate financial statements with 한국어음중개

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors