본문 바로가기

멋쟁이사자처럼 AIS7/오늘코드27

[1123] 부스팅 3대장과 분류의 평가지표 면접 질문 ! Cross Validation은 무엇이고 어떻게 해야하나요? 회귀 / 분류시 알맞은 metric은 무엇일까요? 알고 있는 metric에 대해 설명해주세요(ex. RMSE, MAE, recall, precision …) 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요? Local Minima와 Global Minima에 대해 설명해주세요. 차원의 저주에 대해 설명해주세요 dimension reduction기법으로 보통 어떤 것들이 있나요? 부스팅 알고리즘에서의 learning_rate와 n_estimators의 trade-off learning_rate를 줄인다면 가중치 갱신의 변동폭이 감소해서, 여러 학습기들의 결정 경계(decision boundary) 차이가 줄어들게 됩니다. n.. 2022. 11. 23.

[1116] Boosting Model 0801 실습 사이킷런을 이용한 원핫인코딩 cf. benz 데이터에서는 이례적으로 원핫인코딩을 전부 적용해야 성능이 잘 나옴 현실 세계에서는 train을 기준으로 학습이 진행되어야 한다 handle_unknown="ignore": test에 있으나 train에 없는 경우에는 train 없는 컬럼에 대해서 원핫인코딩을 진행하지 않고 무시 ohe는 numpy array 형태로 반환이 되는데 인덱스 정보가 없다 => 인덱스 재지정을 해주지 않으면 concat이 제대로 실행되지 않음 from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncoder(handle_unknown="ignore") train_ohe = ohe.fit_transform(train... 2022. 11. 16.

[1115] Feature Engineering(3) - Benz 0702 실습 Q. 결측치 대체는 어떻게 해야 할까? A. 결측치가 많다고 삭제하는게 무조건 나은 방법이 아닐 수도 있다. 이상치, 특잇값을 찾는다면 오히려 특정 값이 신호가 되는 경우가 있다. 범주형 데이터의 결측치 채우지 않고 인코딩해주면 나머지 없는 값은 0으로 채워지게 되나 그 대신 희소한 행렬이 생성된다. 반면, 수치형 데이터인데 결측치라면 잘못채웠을 때 오해할수 있으니 주의가 필요하다. 경험치를 많이 쌓는게 필요하다. Q. 왜도와 첨도의 정확한 수치까지 알아야 할까? A. 정확한 수치를 모르더라도 시각화를 해보면 알 수 있다. 그러나 featrue가 100개 이상이라면 많은 시간이 소요되어 비효율적이다. 또한, Anscombe's Quartet 데이터를 생각해 보면 요약된 기술 통계는 .. 2022. 11. 15.

[1114] Feature Engineering(2) 0701 실습 지난 수업 복습 기술통계 이상치, 결측치, 표준편차 확인 전체 피처에 대해 특이점 확인 수치 범위의 개수가 적다면 범주형 데이터에 가까우며 nunique 값으로 추가적 확인이 필요하다 히스토그램 수치 데이터의 분포 확인 -> 학습과 예측에 도움이 될만한 피처엔지니어링 기법 확인 정규분포 형태인지, 왜도(치우침)나 첨도(뾰족함)이 심한지 등 막대의 간격을 통해 범주형 데이터 확인 이상치 이상치를 평균이나 중앙값 등으로 대체하면 데이터에 왜곡이 될 수 있으니 주의 현실세계에서 풀어야할 문제 중에는 이상치를 탐지하는 문제도 있음 희소값 희소값을 학습하게될 경우 연산 시간이 오래 걸리며 과대적합 우려가 있음 data binning, 결측치 처리 등 스케일링과 트랜스포메이션 변수 스케일링 회귀 계열.. 2022. 11. 14.

[1109] Feature Engineering 0701 실습 파일 Feature Engineering 변수 스케일링(Feature Scaling) 트리 기반의 모델은 피처 스케일링이 필요없다. 트리 기반의 모델은 절대적인 크기보다 상대적인 크기의 영향을 받기 때문이다. 피처 스케일링이란, 피처의 범위를 조정하여 정규화하는 것을 의미한다. 일반적으로 분산과 표준편차를 조정하여 정규분포 형태를 띄게하는 것이 목표이다. (빨간 선이 표준 정규 분포, 위키백과) Q. 왜 Feature Scaling을 해야할까? A. 1. 피처의 범위가 다르면 피처끼리 비교가 어려우며 일부 머신러닝모델에서 제대로 작동하지 않는다. ex. 주식데이터의 등락폭을 한 그래프 안에서 비교할 수 있다.(1주 10만원 주식 vs. 1주 1000원 주식) 2. 피처 스케일링이 잘 되어 .. 2022. 11. 9.

이전 1 2 3 4 5 6 다음

티스토리툴바