MG
[ML / Andrew Ng] Machine Learning System Design - Using Larage Data Sets 본문
컴퓨터과학/AI_ML강의 (Andrew Ng)
[ML / Andrew Ng] Machine Learning System Design - Using Larage Data Sets
MG# 2022. 5. 31. 14:50위 그림은 다양한 알고리즘을 이용해 문제를 해결할 때 training set size에 따른 정확도 그래프이다. 결론적으로 말하는 것은 어떤 알고리즘을 가지더라도 data set을 더 많이 training 시킬수록 정확도가 올라간다는 것이다. 여기서 알 수 있듯 machine learning 에서 data set의 크기는 매우 중요하다.
하지만 평수만 주어지고 집값을 예측하는 문제는 단순히 하나의 특징만으로 예측하기 어려운 문제이다. 그렇기에 이런 문제는 data set 이 늘어나도 정확도가 많이 상승한다고 장담할 수 없다. 이에 대한 유용한 방법으로 전문가에게 맡겨 이를 검증하는 것이다.
정확도를 상승시키기 위해 앞 강의에서 봤듯이 많은 parameter을 추가하면 된다. regression 에서 더 많은 feature을 추가하거나 neural network에서 더 많은 hidden unit, layer를 늘리는 방법 등이 있다. 이 방법은 너무 많이 사용하게 되면 low bias를 갖게 되고 overfitting이 되는 문제가 생기지만 여기서 더 많은 training set으로 훈련시키면 높아진 variance를 줄일 수 있고 overfitting을 막으면서 error를 줄일 수 있는 장점이 있다.