현대 기술 시대에는 정형 또는 비정형 데이터가 매우 풍부하다. 20세기 후반에 데이터에서 지식을 추출하여 예측하는 자기 학습(self-learning) 알고리즘과 관련된 인공 지능의 머신러닝이 출현했다. 사람이 수동으로 대량의 데이터를 분석하여 규칙을 유도하고 모델을 만드는 대신, 머신러닝이 데이터에서 더 효율적으로 지식을 추출하여 예측 모델과 데이터 기반의 의사 결정 성능을 점진적으로 향상시킬 수 있다.(머신러닝 교과서 3판, Sebastian Raschka)
머신러닝은 세 가지 종류로 구분된다.
레이블(정답)이 있는 데이터로 진행하는 지도 학습, 레이블과 타깃이 없는채로 진행되는 비지도 학습, 보상 시스템을 통해 연속된 행동에서 학습하는 강화 학습이다.
1. 지도 학습
지도 학습의 주요 목적은 레이블 된 훈련 데이터에서 모델을 학습하여 미래의 데이터를 예측하는 것이다. 여기서 지도는 희망하는 출력 신호(레이블)이 있는 일련의 샘플을 의미한다 아래의 그림은 전형적인 지도 학습의 작업 흐름을 나타낸다.
가령 스팸 메일을 필터링한다고 하자. 모델을 학습시킬 데이터셋에는 '스팸이다', '스팸이 아니다'의 명확한 레이블이 달려있을 것이다. 모델은 해당 데이터셋으로 훈련하여 새로 들어오는 이메일이 스팸인지 아닌지라는 두 범주(category) 중 어디에 속하는지 예측한다. 이와 같은 예시처럼 범주를 레이블로 가진 데이터로 진행하는 지도 학습을 분류(classification)이라고 한다.
1.1 분류 : 클래스 레이블 예측
지도 학습의 하나인 분류는 과거의 관측을 기반으로 새로운 샘플의 범주형 클래스 레이블을 예측하는 것이
참고
'AI > ML' 카테고리의 다른 글
정규분포와 Feature Scaling (1) | 2022.11.10 |
---|---|
[유튜브 강의록] 04-1: Ensemble Learning - Overview (0) | 2022.11.06 |
[HML2] Decision Tree와 화이트박스 (0) | 2022.11.03 |
2021 캐글 통계로 보는 머신러닝 (0) | 2022.10.27 |
머신러닝 시작! (0) | 2022.10.27 |
댓글