본문 바로가기
멋쟁이사자처럼 AIS7/오늘코드

[1024] ML Tools

by YeonGun M 2022. 10. 24.

드디어, 머신러닝

Machine Learning Library

새롭게 등장하는 수많은 도구들로 무엇을 할 수 있을까?
문서화가 훌륭한 파이썬의 특징을 참고해 외우는 게 아니라 적재적소로 써먹는 법을 배우자.

Kaggle 설문

  1. Scikit-learn : ML, 특히 정형데이터를 다룰 때 많이 사용
  2. TensorFlow : DL, 2.0부터 Keras를 api로 채택
  3. Keras : DL, TensorFlow를 쉽게 추상화
  4. Xgboost : ML
  5. PyTorch : DL
    ...

작업툴 3대장

  1. Jupyter Notebook 73.5%
  2. VSCode : 파이썬 창시자의 google 이직...!
  3. JupyterLab : Jupyter Notebook의 진화버전
  • 선형 알고리즘, 트리 알고리즘 ...
  • AutoML : 너무 잘되어 있고, 잘 써먹기 위해서 ML을 좀 알아야함

Scikit-Learn

  1. 분류(classification) : 범주 데이터의 분류(지도학습)
  2. 회귀(regression) : 수치 데이터를 통한 예측
  3. 군집화(clastering) : 기존의 범주 없이 정답 없이 분류가 됨(비지도 학습)
  4. 차원 축소(dimensionality reduction) : 차원을 줄여 시각화를 용이하게 해줌, 특성을 압축시켜 파라미터의 개수를 감소시킴
  5. 모델 선택(model selection) : 파라미터 튜닝 등
  6. 전처리(preprocessing) : 특성 추출과 nomalization(0 ~ 1 사이로 값을 정리, 해당 항목 수 / 전체 빈도 수)
    => 인생은 짧기에 모든 걸 알기는 힘들다...대표적인 거만 알자
  • 장점: 예측 데이터 분석을 위한 간단하고 효율적인 도구
  • 단점: 딥러닝 및 강화학습을 진행하지 않음(neural network learning이 있긴 한데...)
  • 특징 : 다른 많은 python 라이브러리와 연동, 호환이 용이함
  • XGboost, LightGBM, Catboost, PyCaret, PROPHER, H20 ...

tensorflow vs. pytorch

  • tensorflow : 구글
  • pytorch : 페이스북 => 리눅스
  • 현장에서는 tensorflow 가 더 먼저 나와 먼저 쓰나, 버전 1, 2 로 인한 이슈가 다소 있음.
  • 수업은 주로 tensorflow
  • 논문은 주로 pytorch
  • keras는 tensorflow 2.0 에서 공식 api 로 채택

+++

  • Fast.ai : pytorch 를 엄청 추상화, 온라인 교육용, 수학통계적 지식보다는 learnig by doing
  • 카페는 이런게 있다~
  • DL4J : 자바용
  • MXNet : 다양한 언어 지원

설명가능한 인공지능(XAI : Explainable AI)
기존에는 예측 성능은 좋으나 설명을 못했음(블랙박스 형태)
=> 설명 가능한 인공지능에 대한 개발 활발, 어떤 모델 때문에 이런 결과가?

  • YelloBrick
  • 순열 중요도(Permutation Importance) : 어떤 변수가 중요한 역할을 헀는가
  • ELI5 : Explain Like I'm 5
  • 대리모형, 전역적 대리모형, LIME, SHAP ...
  • TreeInterpreter : 복잡한 tree를 시각화 어떻게 시각화 하는가(decision tree는 본래 시각화 가능)

머신러닝 기초

cf. 딥러닝: 머신러닝의 하위개념으로 신경망(neural network)를 사용하는 머신러닝 기법을 말함

  • label == 정답
  • 50개 이상의 데이터가 범주형 => 분류(label 존재), 군집화(label 존재x)
  • 50개 이상의 데이터가 수치형 => 회귀(예측), 차원축소(예측X)
  • 지도학습: label 존재, 분류와 회귀
  • 비지도학습: label 부재, 군집화와 차원축소

댓글