본문 바로가기
AI/ML

[유튜브 강의록] 04-1: Ensemble Learning - Overview

by YeonGun M 2022. 11. 6.

재생목록: [Korea University] Business Analytics (Graduate, IME654)
강의주소: 04-1: Ensemble Learning - Overview
강의자료: github

 

1. 공짜 점심은 없다 No Free Lunch Theorem

어떤 알고리즘이 모든 알고리즘에 대해서 항상 우월하거나 열등할 수 있는가? NO
=> 만약 특정 알고리즘이 문제를 유별나게 잘 푼다면, 해당 알고리즘과 문제의 fit이 닮았기 때문이다.
=> AutoML이 개발되기 전까진 다양한 알고리즘을 알아야 한다!

앙상블이라는 여러 개의 알고리즘의 결합된 기법은 단일 모형과 비교했을 때 성능이 향상될 가능성이 높다

  • 앙상블 알고리즘: Random Forest, Bagged trees, Boosted Trees, Boosted Stumps ...
  • 단일 알고리즘: SVM, ANN, Logistic Regression, Naive Bayes, KNN, Decision Tree ...

 

2. Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?

  • 논문 링크
  • 2014년에 Journal of Machine Learning Research(JMLR)에서 발행된 논문
  • 실제 현실의 분류를 풀기 위해서 수백가지의 알고리즘을 알아야 해?
  • Empirical Study의 끝판왕: 179개의 알고리즘과 121개 데이터셋(당시 유명 분류데이터셋 전부 다)과 30번 반복수행

결과

  1. No Free Lunch Theorem 은 맞다
    => Rank 1인 알고리즘 존재하지 않음
  2. 그럼에도 불구하고 무시 불가능한 평균적 순위의 편차가 존재한다.
  3. Random Forests(의사결정나무의 앙상블)과 SVM 계열이 상대적으로 분류 성능이 높다.

한계

  1. Boosting 계열의 알고리즘이 사용되지 않았다.
  2. 같은 알고리즘이어도 구현이 다르면 다르게 취급되었다(179개 알고리즘의 비밀).
    ex. SVM_C_1, ... , SVM_R_ㄱ, ... , SVM_Python_a, ...
    => unique 한 알고리즘은 20개 이내로 추정

실제 문제의 예시에서 단순히 서로 다른 알고리즘의 output을 평균내서 사용하더라고 성능향상 효과가 나타났다.

=> 기승전 앙상블

Ensembles almost always work better than the single best model.

댓글