Notice
Recent Posts
Recent Comments
Link
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total
관리 메뉴

MG

[ML / Andrew Ng] Introduction 본문

컴퓨터과학/AI_ML강의 (Andrew Ng)

[ML / Andrew Ng] Introduction

MG# 2022. 4. 28. 14:36

머신이랑이란 AI의 하위분야이며 컴퓨터의 새로운 능력을 뜻합니다. 이는 이미 우리 실생활에서 많이 볼 수 있습니다. 스팸 메일을 자동 차단해주는 Gmail, 맞춤 광고 등 우리가 더 편하게 생활할 수 있도록 도와줍니다.

 

구체적인 예시로 1) 데이터마이닝, 웹에서 클릭, 의료기록 등 많은 데이터셋을 가지고 자동화, 웹에서 활용합니다. 2) 자동화, 자율주행, 자연어처리, 컴퓨터비전 등 분야에서 직접 프로그래밍하지 않고 적용됩니다. 3) 자동 커스터마이징, 아마존이나 넷플릭스에서 고객에게 상품을 맞춤 추천해줍니다.

 

이외에도 수많은 사례가 있으며 이미 우리 실생활에서 머신러닝이 없는 삶을 상상하기 힘들 정도로 우리의 삶에 녹아들어 있고 이 비중은 시간이 지날수록 더 커질 것입니다.

 

머신러닝의 구체적 정의는 1959년 Arthur Samuel 이 처음 머신러닝은 명시적인 프로그래밍 없이 컴퓨터가 스스로 학습하는 것이라고 정의하였습니다. 이는 포괄적인 정의로 시간이 흐르며 더 구체적인 정의가 필요하게 되었습니다. 그래서 1998년 Tom Mitchell 이 컴퓨터가 경험 E 를 바탕으로 업무 T 를 수행하고 수행 능력인 P 를 측정한다 라고 재정의하였습니다. 

 

이 정의를 스팸메일을 차단하는 머신러닝에 적용시켜보면 내가 메일을 확인하고 스팸인지 아닌지 분류하는 것이 경험 E, 이를 학습한 컴퓨터가 직접 이메일을 스팸인지 아닌지 분류하는 것이 업무 T 이고 얼마나 성공적으로 이를 정확하게 분류하는지인 수행능력이 P 가 됩니다.

 

머신러닝은 크게 2가지로 분류됩니다. 지도(Supervised)학습과 비지도(Unsupervised)학습으로 나뉘는데 이는 컴퓨터가 머신러닝을 통해 어떤 일을 하느냐에 따라 나뉩니다.

 

지도학습을 간단하게 설명하자면 답이 정해져 있는 학습입니다. 위의 예시는 부동산 가격 문제인데 x축이 집의 크기, y축이 집의 가격을 나타냅니다. 이 문제는 집의 크기(Input)이 주어졌을 때 집의 가격(Output)을 예측하는 문제입니다. 이 문제를 더 구체적으로 나누자면 회귀(Regression)문제라고 합니다.

 

위의 빨간색 X 표시가 실제 datasets 이고 이를 컴퓨터가 학습해 임의의 집의 크기를 넣었을 때 집의 가격을 예측하게 됩니다. 아주 정확하진 않겠지만 파란색 곡선을 따라가면 대략적으로 예측이 가능합니다. 그렇기에 Regression 은 연속된 값을 예측하게 됩니다. 집의 크기도 연속된 값이기 때문에 당연하게 Output인 집의 가격도 연속된 값으로 나오게 됩니다. 이는 Regresion 의 특징 중 하나입니다.

 

지도학습의 또 다른 예시는 분류(Classification)문제입니다. 위의 예시는 종양의 크기가 주어졌을 때 이가 악성인지 양성인지 즉, 유방암이 걸렸는지 안 걸렸는지 판단하는 문제입니다. 이 문제에서는 악성인지(1, Y) 아닌지(0, N) 2개의 Output만 존재하지만 꼭 2개가 아니더라도 여러 개의 결과가 존재할 수도 있습니다.

 

Classification 문제는 위의 Regression 문제와는 확실히 다른 점이 보입니다. Input은 연속된 값으로 비슷하게 주어지는 것 같지만 Regression 은 Output 도 연속된 값이 나오는 반면, Classification 은 Output이 연속되지 않은 분류된 Output으로 나오는 점이 차이점이라고 할 수 있습니다. 

 

또한 지도학습의 Input이 위의 예시들처럼 1개만 존재할 수 있지만 많은 경우에선 여러 개의 독립변수가 존재하게 됩니다. 위의 유방암 판단 문제에서도 실제로는 Input 이 종양의 크기뿐 아니라 나이, 세포의 모양, 덩어리의 굵기 등 많은 변수가 존재하게 됩니다.

 

비지도학습은 지도학습과는 다르게 답이 존재하지 않습니다. 다르게 말하자면 정해진 Output이 없습니다. 위에서 나온 예시에서 볼 수 있듯이 Input을 넣었을 때 기대하는 Output이 있게됩니다. 하지만 비지도학습은 위 그림처럼 비슷한 특징이나 유형만을 묶을 뿐이지 라벨이 따로 붙어있지는 않습니다. 비슷한 유형끼리 묶는다고 하여 이를 Clustering 이라고 합니다.

 

비지도학습의 예를 들자면 구글뉴스가 있습니다. 구글뉴스는 많은 신문사의 여러 뉴스를 가져옵니다. 하지만 이를 사람이 직접 모두 분류하면 많은 사람이 필요할 뿐더러 오류도 많이 발생할 것입니다. 여기서 비지도학습을 활용합니다. 구글뉴스에 접속해 보면 많은 뉴스들을 저희가 직접 분류하지 않고 이미 분류가 되어 있습니다. 경제, 정치, 세계, 과학 등 이미 구글의 머신러닝이 이를 분류해 놓은 것을 확인할 수 있습니다.

 

하지만 의문점이 들 수 있습니다. 어딘가 이는 Input 을 토대로 라벨만 따로 매길뿐 위의 유방암 판단 문제의 분류만 많아져 보인, 즉 Classification 처럼 보이기도 합니다. 이를 자세히 살펴보자면 구글뉴스는 새로운 주제나 그 때 유행하는 주제에 대해서 새로 묶을 수 있고 어떤 뉴스가 경제, 세계 등 여러 라벨에 속할 수 있다는 점이 다릅니다. 이것이 가능한 이유는 비지도학습이 정답이 따로 없어 어떻게 분야를 자르냐에 따라 라벨이 달라지기 때문입니다.