반응형

원본 링크



Machine Learning Wars: Deep Learning vs GBM

머신러닝 연구는 불행하게도 양극화되었다. 현엽은 주로 딥러닝(deep learning) 또는 GBM(Gradient Boosting Machine)을 도입한다. 그들은 단지 지지자처럼 이 알고리즘을 지원할 수도 있다. 인간은 편향되었다는 것을 명심하자. 이 글에서는 각 알고리즘의 장점과 단점을 치우침없이 다뤄볼 것이다.




Deep Learning 진영

딥러닝이 수퍼파워를 제공한다는 것은 사실이다. Face recognition, mood analysis, making art는 더이상 힘든 작업이 아니다. 그러나 심층 신경망(Deep Neural Networks)은 결정하는 문제에서 벽에 부딪혔다. 왜냐하면 심층 신경망은 전체적으로 블랙박스(black boxes)이기 때문이다.

이것은 왜/어떻게(Why and How)에 대한 질문에 대답할 수 없다.

  • 왜 이러한 숫자의 히든 레이어(hidden layers)와 노드(node)를 갖는가?
  • 왜 학습률(learning rate)과 학습시간을 이러한 값으로 설정하는가?
  • 더 중요하게 어떻게 동작하는가?

이것은 신경망이 행렬곱(matrix mulitplication), 비선형 함수(non-linear funciton, sigmoid, relu), 미분(derivatives)과 정규화(Normalization)의 조합이기 때문이다. 기본적인 정보를 모으는 것은 육하원칙(5W1H)에 대해 대답하기 위해 필요하다. 그렇지 않으면 완전하지 않다고 생각한다.

설명할수 없는 것은 문제에 대한 해결을 찾기 힘들게 만든다. Microsoft가 챗봇 Tay가 인종차별주의자가 되었을 때 패치를 하는 대신 셧다운했던 것을 기억하자.


Tay가 몇시간동안 인종차별주의자가 되었다.

여기서 은행과 금융같은 몇몇 산업분야는 엄격한 규제가 있다. 해석 가능한 능력이 여기 있어야만 한다. 이것이 동작할지라도 설멸할 수 없는 모델을 운영상황에 배포할 수 없다.



Decision Tree 진영

다른 한편으로 결정 트리(decision tree) 알고리즘에 의한 결정은 몇확하게 읽을 수 있다. 왜냐하면 그 결정들은 if문으로 변환될 수 있기 때문이다. 이는 고객 요청을 기반으로 규칙(rule)을 수정할 수 있게 한다. 게다가 규칙은 복잡하지 않다. 결정 트리 알고리즘은 가장 지배적인 특성을 찾고 모든 if 블록에서 이를 점검한다. 이것은 만약 특성이 짐을 싣는 능력과 여러개의 문이 있다면 여러개의 문에 대한 짐을 싣는 능력도 또한 점검할 수 있다는 것을 의미한다. 만약 짐을 싣는 능력이 크다면 아니면 문이 2개라면 같은 이야기는 있을 수 없다. Else 조건은 if문에서 동일한 특성을 점검해야만 한다.

가장 지배적인 특성은 ID3에서는 정보 이익(information gain), C4.5에서는 정보 비율(gain ratio), CART에서는 Gini index, 회귀 트리(Regression tree)에서는 표준편차(standard deviation)으로 찾을 수 있다. 결정 트리 알고리즘은 이것의 하위 데이터셋에서 재귀적으로 실행된다. 이것을 분할 정복(divide and conquer)라고 부른다.

결정 트리는 투명한 알고리즘이지만 해석가능한 능력과 정확도는 역으로 비례한다. 해석가능한 능력에 대한 정확도를 무시할 수 없다.


Interpretability vs accuracy



GBM 진영

GBM은 신경망 수순의 정확도에 근접하기 위한 결정트리를 지원한다. GBM의 접근법은 단일 결정 트리는 충분히 강하지 않다는 것이다. 이전 회차의 오류를 기반으로 결정트리 알고리즘을 적용하는 것은 신경망 정확도에 근사하거나 넘어선다. 게다가 여전히 설명 가능하다.


Playing gold is very similar to GBM by [Terence Parr](https://explained.ai/gradient-boosting/)



비교 연구

2개의 나선형(spiral) 데이터셋을 생각해 보자. 이 데이터셋의 종류를 구분하는 것은 매우 어렵다. 이 데이터셋은 tensorflow playground에 있다. 모든 입력 후보를 사용가능하게 하고 첫번째 히든 레이어내 노드 수를 8개로 증가시켜 성능을 높힌다.


Classification of two spiral data set in deep learning

GBM에서도 gradient boosting interactive playground라는 유사한 인터세이스가 있다. 재귀적으로 30개의 결정트리를 만들어 역시 성능을 높힌다.


Playground in GBM

딥러닝은 Superman으로 정말 무거운 바위를 옮길 수 있다. 결정 트리는 수퍼파워를 갖지는 않지만 여러개의 결정트리가 모이면 GBM이 된다. 여기서 GBM은 똑같이 무거운 바위를 옮길 수 있다. 이렇게 딥러닝이 Superman이라면 GBM은 Flash가 될 수 있다.



경주

GBM이 딥러닝만큼 강하다는 것을 알았다. 더 강할 수 있을까?

Kaggle은 데이터 애호가를 위한 플랫폼이다. 이것은 필수는 아니지만 승리한 모델의 저자는 모델에 대한 상세한 설명을 할 수 있다. 저자는 2015년에 29개의 우승 솔루션에 대한 데이터를 가지고 있다. 17개의 솔루션이 GBM에 관련된 것인 반면 11개는 신경망을 사용한 것이다. 이것은 GBM이 우승 솔루션의 절반 이상이다.라는 의미이다. GBM은 KDDCup 대회 역시 지배했다. 상위 10내 모든 우승 팀이 GBM을 사용했다.


Flash seems to go ahead of Superman in comics

여기서 GBM과 딥러닝을 비교하는 것이 공정하지 않을 수 있다. 우선 9개의 솔루션은 앙상블(ensemble)모델로 신경망과 GBM을 모두 사용한 것이다. 게다가 딥러닝 우승 솔루션은 구조화됮 않은 데이테 기반 이미에 대부분 관련되었지만 GBM 우승 솔루선은 대부분 구조화된 데이터에 관련되었다. GBM과 신경망 쌍의 앙상블은 이들 모델이 시상식에서 나나타기 때문에 매우 성공적이다.


Avengers assembe!

Kaggle은 또한 데이터 과학과 머신러닝을 위한 설문조사도 발표했다. 절반의 참가자가 그들의 일상 업무에서 결정트리에 익숙한 것으로 표시한 반면 신경망 사용은 단지 37.6%만 표시하였다. 은행과 금융 산업분야의 엄격한 규제에 대해 언급했었다. 이쪽에[서 결정트리는 금융 직원의 60%의 툴박스에 있는 반면 30%만 신경망이 툴박스에 있다.



Marvel Universe

개념 설명시 이미지를 사용하려 한다.


만약 ML 알고리즘이 마블 유니버스의 캐릭터라면, 딥러닝은 헐크이고 GBM은 아이언맨이 될 수 잇다. 딥러닝은 가장 강력하지만 많이 제어되지 않지만 GBM은 강하면서 목적을 달성하기 위해 명령을 따른다.



Photo Finish

이 글에서 GBM도 머신러닝도 서로 상금이 아닌 것에 대해 설명하려고 노력했다. GBM은 머신러닝 현업이 툴박스에 넣어야하는 매우 강력한 머신러닝 알고리즘 이다. 이 사실은 어떠한 현업도 부정하지 않는다.


Photo finish

Justice League에서 Superman과 Flash의 경기 결과를 언급하지 않았더라도 만화책에 나타나 있다. 그들은 동시에 결승점에 도착했고 승자가 없었다. 아마도 딥러닝과 GBM간 경기도 승가가 없을 것이다. 승자는 앙상블 모델일 것이다.

반응형

+ Recent posts