나혼자 공부장

ML tip : training/testing data set 본문

AI

ML tip : training/testing data set

라부송 2019. 4. 16. 16:27

Training data set Evaluation

 위 그림에서 다음과 같은 training set을 모델에 학습시키고, 모델에 1600 사이즈의 값이 얼마냐고 질의했을 때 뭐라고 대답할까? 당연히 330일 것이다. 학습 여부와 상관없이 애초에 학습시킨 정보가 그렇게 쓰여있었기 때문에, 교과서에 있는 내용을 물어보는 것이나 다름없다. 이건 학습 검증 방법으로는 좋지 않은 방법이다.

 

 

 다음과 같이 testing data 부분을 일정 부분 남기고 학습 시키는게 적절하다.

 Validation은 learing rate에서의 알파, regularization에서 쓰이는 람다같은 특정 값을 잘 설정하기 위해 특정 data 부분을 또 남겨두는 것이다.

 

Online Learning

 100만개의 데이터가 있다고 가정할 때, 그걸 한 번에 학습시키는 것은 부담이 크니 10만개씩 쪼개서 학습시키는 식으로 트레이닝하는 것을 Online learning이라 한다. 이전에 10만개씩 학습시켰던 결과는 모델이 가지고 있으므로 후에 오는 데이터를 누적시켜 학습하는 것이다. 

 이후에 새로운 데이터가 추가될 때, 전체를 통으로 새로 학습시키는게 아니라 해당 data를 덧붙여서 그 부분만 새로 학습시키면 되므로 효율적인 방법이다.

'AI' 카테고리의 다른 글

ML tip : Learning rate, Overfitting, Regularization  (0) 2019.04.16
Softmax Classification  (0) 2019.04.01
Logistic Regression  (0) 2019.03.31
Comments