Notice
Recent Posts
Recent Comments
Link
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total
관리 메뉴

MG

[ML / Andrew Ng] Machine Learning System Design - Using Larage Data Sets 본문

컴퓨터과학/AI_ML강의 (Andrew Ng)

[ML / Andrew Ng] Machine Learning System Design - Using Larage Data Sets

MG# 2022. 5. 31. 14:50

위 그림은 다양한 알고리즘을 이용해 문제를 해결할 때 training set size에 따른 정확도 그래프이다. 결론적으로 말하는 것은 어떤 알고리즘을 가지더라도 data set을 더 많이 training 시킬수록 정확도가 올라간다는 것이다. 여기서 알 수 있듯 machine learning 에서 data set의 크기는 매우 중요하다.

하지만 평수만 주어지고 집값을 예측하는 문제는 단순히 하나의 특징만으로 예측하기 어려운 문제이다. 그렇기에 이런 문제는 data set 이 늘어나도 정확도가 많이 상승한다고 장담할 수 없다. 이에 대한 유용한 방법으로 전문가에게 맡겨 이를 검증하는 것이다.

정확도를 상승시키기 위해 앞 강의에서 봤듯이 많은 parameter을 추가하면 된다. regression 에서 더 많은 feature을 추가하거나 neural network에서 더 많은 hidden unit, layer를 늘리는 방법 등이 있다. 이 방법은 너무 많이 사용하게 되면 low bias를 갖게 되고 overfitting이 되는 문제가 생기지만 여기서 더 많은 training set으로 훈련시키면 높아진 variance를 줄일 수 있고 overfitting을 막으면서 error를 줄일 수 있는 장점이 있다.