반응형

원본 링크



3 types of Classification Problems in Machine Learning

이진 분류(Binary Classification), 다중 분류(Multi-class classification), 다중 레이블 분류(Multi-label classification)에 대해 알아보자.


머신러닝에서 분류(Classification)는 각 특성셋이 사전에 정의된 분류 레이블(class label)로 매핑하는 목표 분류 함수를 학습하는 것의 supervised 접근방법을 나타낸다. 즉, 분류는 입력 데이터의 셋이 주어지면 목표 분류가 예측되는 예측 모델링을 나타낸다.

다음과 같은 다양한 형태의 분류 문제가 있다.

  1. 이진 분류(Binary Classification)
  2. 다중 분류(Multi-class Classification)
  3. 다중 레이블 분류(Multi-label Classification)



1. 이진 분류(Binary Classification)

이진 분류(Binary Classification)목표 분류가 두개의 분류를 갖는 supervised 분류 문제의 형태이고 작업은 분류중 하나를 예측하는 것이다. 전형적으로 이 작업은 정상 상태인 분류와 하나와 비정상 상태인 분류인 클래스 다른하나를 포함한다.


Binary Classification Problems



Example Problems

  • Spam Detection: 스팸 탐지 문제에 대한 작업은 입력 메일/메시지가 스팸에 포함되는지 아닌지를 탐지하는 것이다. 이 문제에서 'not spam'은 정상 상태이고 'spam'은 비정상 상태이다.
  • Cancer Detection: 암 진단 문제에 대한 작업은 예상이 암환자인가 아닌가를 탐지하는 것이다. 이 문제에서 'cancer'는 정상 상태이고 'not cancer'는 비정상 상태이다.



ML algorithms

분류 알고리즘으로써 제공될 수 있는 몇자지 유명한 ML 알고리즘이 있다.(아래 목록외에도 많이 있다.)

  • Logistic Regression
  • k-Nearest Neighbour
  • Naive Bayes
  • Decision Tree



Metrics

평가 지표는 문제 상태에 따라 다르다. 지표는 또한 목표 분류 레이블의 분포에 따라서도 다르다. 다른 지표는 균형잡힌(balanced) 또는 균형잡히지(imbalanced) 않은 이준 분류 문제를 포함한다. 몇가지 유명한 이진 분류 지표는 다음과 같다.

  • Accuracy
  • Log-loss
  • F1-score
  • AUC-ROC score



다중 분류(Multi-class Classification)

다중 분류(Multi-class Classification) 또한 하나 이상의 분류 레이블을 갖는 분류작업을 나타내는 이름이 여러개 있는 분류(Multinomial Classification)로써 표현된다. 이진 분류와는 다르게 다중분류는 정상과 비정상 상태에 대한 개념을 가지고 있지 않다. 분류기는 알려진 분류의 범위에서 단지 하나에 속하는 것으로 예측한다.

다중 분류문제에 대해서는 두가지 접근법이 있다.

  • One-vs-Rest: N개 분류기 모델은 N개 분류에 대해 훈련된다. 가장 높은 예측 확률을 가진 분류가 최종 출력으로 예측된다.

  • One-vs-One: N * (N -1)개 분류기 모델은 각 분류쌍에 대해 훈련된다.

    
    Multi-Class Classification Problems
    



Example Problems

  • Face Recognition
  • Animals Classification
  • Optical Character Recognition

이외에도 더 있다. 목표 컬럼에서 분류의 수는 각 문제에 따라 다양하다. MNIST에서는 목표 분류의 수가 10으로 정해진다. 반면 얼굴 인식에서는 목표 분류의 수가 수백 또는 수천이 될 수 있다.



ML algorithms

이진 분류에 사용된 많은 알고리즘에 다중분류에서도 사용될 수 있다. 몇가지 유명한 ML 알고리즘은 다름과 같다.

  • k-Nearest Neighbour
  • Decision Tree
  • Naive Bayes
  • Random Forest



Metrics

  • Micro averaged F1, Precision, Recall score
  • Macro averaged F1, Precision, Recall score
  • Multi-class log loss



다중 레이블 분류(Multi-label Classification)

다중 레이블 분류(Multi-label Classification)목표 분류 레이블이 하나 이상이고 하나 이상의 분류가 출력으로써 예측될 수 있는 분류 작업이다. 하나의 분류가 예측되는 이진분류나 다중분류문제와는 다르게 다중 분류에 대해 여러개의 분류가 예측될 수 있다.


Multi-Label Classification Problems



Example Problems

  • Stackoverflow Tags Prediction
  • Movie Genre Prediction



ML Algorithms

이진 또는 다중 분류 문제에서 사용된 분류 알고리즘은 다중 레이블 분ㅀ에 직접적으로 사용할 수 없다. 분류 알고리즘에 대해 다중 레이블링된 버전은 사용 가능하다. 몇가지 알고리즘은 다름과 같다.

  • Multi-labeled Decision Tree
  • Multi-labeled Random Forest
  • Multi-labeled Gradient Boosting

다른 접근 방법은 one-vs-rest 방법을 사용하는 것이다. 이는 각 분류에 대한 레이블을 예측하는 각각의 n-모델을 n개의 분류 모델로 사용한다.(n은 목표 분류 레이블의 수 이다.)



Metrics

  • Micro averaged F1, Precision, Recall score
  • Macro averaged F1, Precision, Recall score
  • Hamming Loss
  • Log-loss




Conclusion

이 글에서 몇가지 유명한 예와 가장 일반적으로 사용되는 지표와 함께 머신러닝에서 다른 현태의 분류 예측 모델링을 알아보았다.

머신러닝에서 회귀 기술에 대한 형태는 여기를 읽어보자.

반응형

+ Recent posts