Machine Learning & Data Analytics

Machine Learning paradigms schematization

Genie Lee 2022. 2. 13. 16:02
728x90
반응형

Machine Learning paradigms schematization.

 


 

  • 비지도 학습( Unsupervised Learning)
    • 우리가 예측해야 하는 값(target)의 출력값이 없이 입력 데이터 만을 이용하여 학습 알고리즘을 가르쳐야 하 는 모든 종류의 머신러닝
    • 비지도 학습의 종류: clustering(군집화), 차원 축소
    • 비지도 변환: 100개의 특징을 다 쓰면, 과대적합이 생기니까, 중요한 성분을 뽑아낸다. 공통성이 있는 특징을 만들어서 10개만 추출해서, 100개 특징을 99% 쓴 것과 같은 효과를 낸다.
    • 적은 수로도 기존의 데이터 성질을 잘 반영할 수 있도록 변환 시켜 준다. 예) PCA
    • 특성이 많은 고차원 데이터의 특성(feature)의 수를 줄이면서 꼭 필요한 특징을 포함한 데이터로 표현하는 방법인 차원 축소(dimensionality reduction)이다.
  • 지도학습(Supervised Learning)
    • 인간이 데이터를 분류해서 레이블을 붙여줌
    • 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식
    • 지도학습은 회귀(regression)과 분류(classification)으로 나누어진다.
    • 분류,회기, 추천시스템, 시각/음성 감지/인지, 텍스트 분석,NLP
    • 예: iris 품종 예측하기 - 학습 데이터: sepal length, sepal width, petal length, petal width / 테스트 데이터: Setosa, Vesicolor, Virginica
    • 예:사람의 몸무게로 키를 예측하려고 할 때, 각 사람들의 키와 몸무게를 다 알고 있으면, 예측 모델을 만들 수 있음. 몸무게를 모르는 사람이 있다고 했을 때, 그 사람의 키를 안다면, 지도학습 모델에 키를 넣어 몸무게를 예측할 수 있음
  • 분류(Classification) -범주형 데이터
    • 주어진 데이터가 어떤 라벨(클래스)인지 예측하는 것 -discreet한 output을 가짐
    • 생선 사진을 보고 넙치(광어)인지 도다리인지 구별하는 문제. 넙치, 도다리와 같은 것을 각각 클래스(class)라고 한다.

Classification VS Regression

  • 회귀(Regression) - 수치형/범주형 데이터
    • 입력값에 따른 미래 결과값(수치형 데이터)을 예측하는 알고리즘

  • Single Linear Regression(단순선형회귀) VS Multiple Linear Regression(다중선형회귀)
    • 단순선형회귀: 하나의 독립변수를 가지고 종속변수를 예측하는 회귀 모형을 만드는 것
    • 다중선형회귀: 여러개 독립변수들을 가지고 종속변수를 예측하는 회귀 모형을 만드는 것
  • 범주형 회귀분석 CATREG(CATegorical REGression)
    • 범주에 숫자 값을 할당하여 범주형 데이터를 수량화함으로써 변환된 변수에 대한 최적 선형 회귀 방정식을 작성합니다.
    • 예제. 범주형 회귀분석을 사용하여 직업 범주에 따른 직업 만족도, 지역, 여행 횟수 등을 설명할 수 있습니다. 높은 만족도는 관리자 및 낮은 여행 빈도와 대응되는 것을 알 수 있습니다. 회귀 방정식 결과를 통해 위의 세 가지 독립변수 조합에 대한 직업 만족도를 예측할 수 있습니다.
  • 회귀 분석 예시

 

예) 집값 Y = -0.2X +10  ( X:지하철 역까지의 거리(km), Y:집값(억원) ) 

  -  1km 떨어질 때 마다 집 값이 2천만원씩 떨어진다는 의미

  - 파란점들이 데이터이고, 이렇게 선형으로 나타내지면, 이 데이터에 보편적으로 알맞은 기울기와 절편 a와 b를 머신러닝을 통해 학습하게 됩니다.

  - 단순 회귀 분석 모델에서 파라미터는 a와 b이고, 머신러닝에서는 a와b에 가장 알맞은 값이 얼마인지 데이터에서 찾아 내는 것임. 실제 데이터 값의 추이가 2천만원씩 낮아 지는지(a=0.2) 아니면 1천만원씩(a=0.1) 낮아지는지 확인할 수 있음.

https://www.youtube.com/watch?v=RGUAgXSmRbI&t=1108s

 

 

  • Classification VS Clustering
    • Classification은 데이터를 주어진 라벨(클래스)에 따라 분류하는 법을 학습하는 지도학습의 방법
    • Clustering은 데이터를 보고 스스 비슷한 것 끼리 클래스를 만들어 분류하는 비지도 학습의 방법

 

728x90
반응형