생활코딩 : 머신러닝 야학 1. 3

DAY 3 : ~ 심리전 까지
직업의 시작


데이터 자체는 현실이 아니지만 현실을 데이터로 표현한다면 컴퓨터의 엄청난 힘으로 데이터를 처리할 수 있게 된다.
그 처리 방법 중에 하나가 머신러닝이다.
현실을 데이터화 할수 있다면 단순화 된 데이터를 통해 현실을 변화시킬 수 있다.

이것이 데이터 산업이다.

데이터 산업은 데이터 과학(Data science)와 데이터 공학(Data engineering)으로 분리해 볼 수 있다.
데이터 과학은 데이터를 만들고, 만들어진 데이터를 이용하는 일을 한다.
데이터 공학은 데이터를 다루는 도구를 만들고, 도구를 관리하는 일을 한다.
두 가지는 달라보이지만 사실은 하나다.


인류가 만든 가장 훌륭한 시각화 도구 - 표와 좌표 평면


표는 극도로 억압적인 도구다. 하지만 데이터를 표 안에 속박할 수 있다면 단정하게 정리할 수 있다. 표에 러신러닝을 투입한다면 통찰력을 기계도 발휘할 수 있다. 데이터 산업에서 표는 아주 중요하다.


표의 기본 구조. 행과 열row and column

데이터를 표에 담는 방법 두 가지. 왼쪽이 맞는 표현이고 오른쪽은 틀린 표현이다.


표는 데이터들의 모임으로 데이터 셋(data set)이라고 부른다. 행은 각각의 하루를 나타내며 열은 각각의 속성을 나타낸다. 개체들을 행에 적고, 그 개체의 특성들을 열로 구분한다.

행의 다른 말은 개체(instance), 관측치(observed calue), 기록(record), 사례(example), 경우(case)

열의 다른 말은 특성(feature), 속성(attribute), 변수(variable)


독립변수와 종속변수

표 안의 데이터에서 의미있는 정보를 뽑아낼 수 있어야 한다.

변수(Variable)란 ‘변할 수 있는’ 이라는 뜻을 가지고 있다. 표에서는 열을 뜻한다.

독립변수(Independent variable)와 종속변수(Dependent variable)

독립변수는 원인이고, 종속변수는 결과다. 표 안에서는 독립변수는 원인이 되는 열이며 종속변수는 결과가 되는 열이다.

판매량 때문에 온도가 달라지지는 않는다. 하지만 온도 때문에 판매량은 변화할 수 있다. 따라서 판매량에 영향을 받지 않는 온도는 독립적이기 때문에 독립변수이고 온도에게 영향을 받는 판매량은 온도에게 종속되어 있기 때문에 종속변수다. 판매량 변화에 영향을 주는 원인인 온도는 독립변수이며, 온도 변화에 따른 결과인 판매량 변화는 결과이자 종속변수이다.

이것처럼 한쪽의 값이 바뀌었을 때, 다른 쪽의 값도 바뀐다면, 두개의 특성은 ‘서로 관련이 있다’ 따라서 ‘서로 상관이 있다’ 하여 ‘상관관계’ 라고 한다.

온도와 판매량은 서로 원인과 결과이며 독립변수와 종속변수이며 서로 상관관계가 있다.

더 확장하여 온도와 판매량 사이에서는 더 해석할 수 있는 여지들이 있다.

온도와 판매량이 같이 커지고 작아지고 있음을 발견할 수 있다.

판매량이 달라지니 온도가 달라졌다.(성립 불가)

온도가 달라지니 판매량이 달라졌다.(성립 가능)

온도의 2배가 판매량이 되는 일정한 패턴이 발견된다.

이렇게 각 열이 원인과 결과의 관계일 때 인과관계가 있다고 한다.

상관관계는 인과관계를 포함한다.


모든 인과관계는 상관관계지만 모든 상관관계가 인과관계인 것은 아니다.

특성들 사이의 관계를 파악하는 것은 매우 어렵고, 조심스럽게 접근해야 하는 작업이다. 적은 수의 데이터를 가지고 상관관계가 있다고 단정해서는 안된다. 또한 서로 상관관계인 것들을 인과관계라고 단정해서도 안된다.
특성들 사이의 관계를 파악하는 일은 실전에서 매우 엄격한 기준을 가지고 다양한 통계기법을 동원해야 하는 고되고 중요한 작업이다.


결론적으로


네 가지의 결론을 알 수 있다.


어제 냈던 기획안은 머신러닝에 적합하지 않은 듯 하여 새로운 기획안을 작성하였다.

한 가지 더 생각한 것은


환경 : 나이 서른인데 여전히 얼굴에 뾰루지인지 여드름인지 뭔지 모를 것들이 난다.

불만족 : 여드름이냐 뾰루지냐 아니면 다른 종류의 트러블인지 구분할 수 있으면 피부 관리에 도움이 될텐데.

꿈꾸는 것 : 뭔가 났을 때 카메라로 비춰보면 여드름인지, 뾰루지인지 피부염인지 알려줬으면 좋겠고 여드름이면 지금 짜도 되는지, 짜서는 안되는 것인지, 짜면 흉터가 남는지도 판단할 수 있었으면 좋겠다.

종속변수 : 피부에 뭔가 난 것

독립변수 : 트러블의 종류


심리전

같은 대상이라고 할지라도 그것을 도구로 생각하는 사람과 공부거리로 생각하는 사람은 완전히 다른 마음을 갖게 된다. 새로 산 스마트폰의 기능들처럼 머신러닝의 여러 기능들을 바라보자.


머신러닝의 세계에는 다양한 개념과 도구들이 존재한다.

보다 보면 공부를 그만두고 싶은

생각이 드는 지점이 나타날 것입니다.

이런 감정이 드는 것은 인내심이 부족하기 때문이 아닙니다.

이 정도 공부면 충분하다는 뇌의 명령입니다.

우리의 뇌에는 어떤 행위의 경제성을 판단하는,

고도로 정교한 모델이 내장되어 있는 것 같습니다.

이 모델이 ‘지금 하고 있는 행위는 경제성이 없어’라고 결정하면

1차 경고로 지루함을 발송합니다.

시정이 안되면 2차 경고로 절망감을 발송합니다.

다음 수업에 약간 겁이 나지만. 다음 수업까지 화이팅!

Made with by Álvaro