DAY 4 : ~ 양적 데이터와 범주형 데이터까지
머신러닝의 분류
머신러닝(기계학습)은 강화학습, 지도학습, 비지도학습으로 구성되어 있다. 강화학습은 분류와 회귀로 구성되어 있으며 비지도학습은 군집화, 변환, 연관으로 구성된다. 그 외에도 다양한 학습이 머신러닝을 구성한다.
비유가 이 그림을 이해하는데 도움이 될 수 있다.
지도학습(Supercised learning) 여기서의 ‘지도’는 기계를 가르친다는 의미이다. 문제집처럼 문제와 정답을 비교하고 맞추다 보면 문제를 푸는 것에 익숙해지게 된다. 이후에는 비슷한 문제를 만나면 오답을 선택할 확률이 낮아진다. 문제집처럼 데이터로 컴퓨터를 학습시켜서 모델을 만드는 방법을 지도학습이라고 한다.
비지도학습(Unsupervised learning) 지도학습에 포함되지 않는 방법들. 기계에게 데이터에 대한 통찰력을 부여하는 방법이다. 통찰의 사전적 의미는 ‘예리한 관찰력으로 사물을 꿰뚫어 봄’ 인데, 누가 정답을 알려주지 않아도 무언가에 대한 관찰을 통해 새로운 의미나 관계를 밝혀내는 것이다. 데이터의 성격, 데이터를 정리정돈 하는 것에 사용된다.
강화학습(Reinforcement learning) 학습을 통해 능력을 향상시키는 것으로 지도학습과 비슷하지만 지도학습은 정답이 있는 것이라면 강화학습은 어떻게 하면 더 좋은 결과를 낼 수 있는지 스스로 노력하는 수련과 비슷하다. 경험을 통해 더 좋은 답을 찾아가는 것이다. 게임에는 규칙이 있다. 규칙에 따라 어떤 행동을 하면 상이나 벌을 받는다. 더 큰 상을 위한 방법을 반복하다보면 고수가 되는데, 기계에게 이러한 방법으로 무언가를 학습하게 하는 것.
정답이 있는 문제를 해결하는 것은? 지도학습
무엇인가에 대한 관찰을 통해 새로운 의미나 관계를 밝혀내는 것은 무엇인가? 비지도학습
더 좋은 보상을 받기 위해서 수련하는 것은 무엇인가? 강화학습
지도학습
지도학습은 역사와 비슷하다. 과거의 사건은 원인과 결과로 기록된다. 역사를 알면 과거 어떤 사건이 일어났을 때,어떤 결과를 냈는지 알 수 있기 때문에 현재의 사건으로 일어날 결과를 예측하는데에도 도움이 된다.
지도학습은 과거 데이터를 학습해서 결과를 예측하는데 주로 사용된다.
과거의 데이터에는 원인과 결과가 있고 그 결과가 인과관계로 맺어져 있다.과거 데이터를 통해 미래를 추측할 수 있는데, 충분한 데이터가 수집되어야 한다. 데이터는 원인인 독립변수와 결과인 종속변수로 이루어져 있어야 한다. 이것을 컴퓨터에게 학습시키면 컴퓨터는 모델을 만든다. 모델이 만들어지면 모델을 사용하면 된다. 지도학습을 위해서는 우선 과거의 데이터가 있어야 한다. 그 데이터를 독립변수와 종속변수로 분리해야 한다. 컴퓨터는 이 데이터를 토대로 학습하여 모델을 만들어 낸다. 이 때에는 데이터가 많을수록, 정확할수록 좋다. 이렇게 학습된 모델에 아직 결과를 모르는 원인을 입력했을때 모델이 결과를 알려줄 수 있다.
머신러닝은 공식의 대중화다.
회귀 VS 분류
지도학습은 회귀와 분류로 나뉜다. 회귀는 Regression이고, 분류는 Classification이다.
이 중 우리가 예측하고 싶은 종속변수가 숫자일 때, 보통 회귀라는 머신러닝의 방법을 사용한다. 레모네이드 모델은 회귀를 이용한 모델.
숫자로 된 결과를 예측하고 싶다면 회귀를 쓴다. ‘지도학습의 회귀로 해결해주세요.’ 라고 요청하면 된다.
분류
분류는 classfication. 무엇인가를 분류한다는 것은 어지럽혀진 대상을 성격에 맞는 이름으로 구분해서 그룹핑 하는 것. 장난감을 ‘장난감박스’ 에 넣는 것도 분류고, 바이러스 검사 시 ‘양성’과 ‘음성’을 분류하는 것도 분류다. ‘손톱’과 ‘정상’을 분류하는 것도 분류다.
이것이 지도학습인 이유
1. 과거의 데이터를 통해 배우기 때문
2. 이 데이터가 독립변수와 종속변수로 이루어져 있다는 것
손톱에서는 손톱을 깨무는 사진들은 독립변수이고 ‘손톱’ 이라는 분류는 종속변수이다. 종속변수인 결과가 숫자가 아니고 이름일때 분류를 사용. 문제를 만났을 때, 추측하고자 하는 결과가 이름 혹은 문자일 때는 ‘지도학습의 분류로 해결해주세요.’ 라고 말할 수 있다.
결론
가지고 있는 데이터에 독립변수와 종속변수가 있고, 종속변수가 숫자일 때 회귀를 이용
가지고 있는 데이터에 독립변수와 종속변수가 있고, 종속변수가 이름일 때 분류를 이용
+
양적 데이터와 범주형 데이터
산업에서는 ‘숫자’ 보다 ‘양적(量的,Quantitative)’ 이라는 표현을 많이 사용한다. 얼마나 큰지, 얼마나 많은지, 어느 정도인지를 의미하는 데이터라는 뜻.
또한 ‘이름’ 대신에 ‘범주(範疇,Categorical)’ 이라는 단어를 쓴다.
지도학습 ┌ 회귀 - 양적 데이터
└ 분류 - 범주형 데이터
집 청소하다가 열 받아서 추가로 생각난 것
환경 : 바닥을 걸레질 할 때 이것이 바닥의 무늬인지 닦을 수 있는 얼룩인지 알고 싶다.
불만족 : 바닥의 무늬는 늘 고정되어 있기 때문에 닦아도 닦이지 않는다. 하지만 무늬와 비슷한 색의 얼룩이 생기면 이게 닦아야 하는 건지 원래 있던 것인지 헷갈린다.
꿈꾸는 것 : 바닥의 무늬와 색상을 좌표를 이용해 기록해두고 로봇청소기가 돌아다니면서 원래 무늬가 있는 곳이 아닌 다른 곳 혹은 다른 색상의 얼룩이 생기는 경우 열심히 닦았으면 좋겠다!
종속변수 : 얼룩
독립변수 : 바닥의 무늬