재생목록: [Korea University] Business Analytics (Graduate, IME654)
강의주소: 04-1: Ensemble Learning - Overview
강의자료: github
1. 공짜 점심은 없다 No Free Lunch Theorem
어떤 알고리즘이 모든 알고리즘에 대해서 항상 우월하거나 열등할 수 있는가? NO
=> 만약 특정 알고리즘이 문제를 유별나게 잘 푼다면, 해당 알고리즘과 문제의 fit이 닮았기 때문이다.
=> AutoML이 개발되기 전까진 다양한 알고리즘을 알아야 한다!
앙상블이라는 여러 개의 알고리즘의 결합된 기법은 단일 모형과 비교했을 때 성능이 향상될 가능성이 높다
- 앙상블 알고리즘: Random Forest, Bagged trees, Boosted Trees, Boosted Stumps ...
- 단일 알고리즘: SVM, ANN, Logistic Regression, Naive Bayes, KNN, Decision Tree ...
2. Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?
- 논문 링크
- 2014년에 Journal of Machine Learning Research(JMLR)에서 발행된 논문
- 실제 현실의 분류를 풀기 위해서 수백가지의 알고리즘을 알아야 해?
- Empirical Study의 끝판왕: 179개의 알고리즘과 121개 데이터셋(당시 유명 분류데이터셋 전부 다)과 30번 반복수행
결과
- No Free Lunch Theorem 은 맞다
=> Rank 1인 알고리즘 존재하지 않음 - 그럼에도 불구하고 무시 불가능한 평균적 순위의 편차가 존재한다.
- Random Forests(의사결정나무의 앙상블)과 SVM 계열이 상대적으로 분류 성능이 높다.
한계
- Boosting 계열의 알고리즘이 사용되지 않았다.
- 같은 알고리즘이어도 구현이 다르면 다르게 취급되었다(179개 알고리즘의 비밀).
ex. SVM_C_1, ... , SVM_R_ㄱ, ... , SVM_Python_a, ...
=> unique 한 알고리즘은 20개 이내로 추정
실제 문제의 예시에서 단순히 서로 다른 알고리즘의 output을 평균내서 사용하더라고 성능향상 효과가 나타났다.
=> 기승전 앙상블
Ensembles almost always work better than the single best model.
'AI > ML' 카테고리의 다른 글
최적화와 경사하강법(Gradient Descent) (1) | 2022.11.17 |
---|---|
정규분포와 Feature Scaling (1) | 2022.11.10 |
[HML2] Decision Tree와 화이트박스 (0) | 2022.11.03 |
지도 학습, 비지도 학습, 강화 학습 [작성중] (0) | 2022.10.27 |
2021 캐글 통계로 보는 머신러닝 (0) | 2022.10.27 |
댓글