Notice
Recent Posts
Recent Comments
Link
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

MG

[ML / Andrew Ng] Advice for Applying Machine Learning - Evaluating a Learning Algorithm 본문

컴퓨터과학/AI_ML강의 (Andrew Ng)

[ML / Andrew Ng] Advice for Applying Machine Learning - Evaluating a Learning Algorithm

MG# 2022. 5. 31. 02:25

이번 챕터에서는 우리가 regularized linear regression을 이용해 문제를 예측할 때 이를 보충하기 위한 방법에 대해서 알아볼 것이다. 예를 들어 training set의 크기, 특징의 종류, lambda의 크기 등등을 조절해 볼 수 있다. 그리고 모델에 대해 어떻게 결과가 나오는지 어떤 부분에 문제가 있는지 진단하는 법을 알아볼 예정이다.

우선 진단하는 법부터 알아보자면 dataset을 만약 training set으로만 이용한다면 새로운 데이터가 들어왔을때 overfitting 문제가 일어나는 등 일반화를 제대로 하기 힘들 것이다. 그렇기에 dataset 중 일부, 여기서는 30%의 set을 test set으로 지정해 따로 테스트 해본다. 그렇게 하면 이 모델이 정확한지 아닌지 판단할 수 있을 것이다.

h 함수를 여러가지로 가정하고 이 중 최고의 모델을 선택하고 싶을 때가 있을 것이다. 이 때 이전에 나왔던 test set을 그대로 d 1~10의 h 함수에 테스트해보면 가장 에러가 작게 나오는 최적의 모델을 찾을 수 있을 것이다. 하지만 여기서 문제가 발생한다. 이를 테스트하는 과정에서 test set에 만약 overfitting되면 이를 일반화 못하기에 좋은 모델이라고 할 수 없는 것이다.

위의 문제를 해결하기 위해 dataset을 총 3종류로 나눈다. training, cross validation(cv), test set으로 나눈다. 여기서 간단하게 cv set은 hyper parameter를 결정하기 위해 (위에서는 d) 사용되는 일종의 1차 테스트입니다. 그리고 이를 테스트해본 후 가장 좋은 모델을 테스트하기 위해 test set을 이용하게 됩니다.