멋쟁이사자처럼 AIS7/오늘코드27 [1025] Machine Learning intro 지난 수업(1024) 복습 cf. nvidia, 그래픽카드 분류와 회귀가 머신러닝의 핵심, 군집화와 차원축소는 분석 및 시각화 분류(classification)의 예시, 회귀(regression)의 예시 머신러닝 모델학습과 예측과정 데이터 검색 => 데이터 전처리 => Feature Engineering => 모델링 => fit/predict => 평가 Data Preprocessing : normalization(정규화), outlier(이상치) 처리, 결측치(모델에 있으면 에러) imputation or 제거, one-hot-encoding 등 => 이번주 과제로 예습! 지도학습: 기존의 데이터(기출문제와 정답)으로 공부(fit)를 하고, 실전문제를 풀어서(predict) 채점함(evalu.. 2022. 10. 25. [1024] ML Tools 드디어, 머신러닝 Machine Learning Library 새롭게 등장하는 수많은 도구들로 무엇을 할 수 있을까? 문서화가 훌륭한 파이썬의 특징을 참고해 외우는 게 아니라 적재적소로 써먹는 법을 배우자. Kaggle 설문 Scikit-learn : ML, 특히 정형데이터를 다룰 때 많이 사용 TensorFlow : DL, 2.0부터 Keras를 api로 채택 Keras : DL, TensorFlow를 쉽게 추상화 Xgboost : ML PyTorch : DL ... 작업툴 3대장 Jupyter Notebook 73.5% VSCode : 파이썬 창시자의 google 이직...! JupyterLab : Jupyter Notebook의 진화버전 선형 알고리즘, 트리 알고리즘 ... AutoML : 너무 잘.. 2022. 10. 24. [1013] EDA, Data Sampling, 파생변수를 이용한 Data 가공, 시각화(3-7 미작성) 3-6. 의약품 처방정보 샘플링 전수조사를 하기엔 데이터가 너무 방대하므로 표본조사를 실행함 numpy 를 이용한 샘플링 np.random.seed np.random.default_rng 코드 np.random.seed(42) sample_no = np.random.choice(raw['가입자 일련번호'].unique(), 10000) rng = np.random.default_rng(42) sample_no = rng.choice(raw['가입자 일련번호'].unique(), 10000) pandas 를 이용한 샘플링 df.sample() 코드 sample_no = raw['가입자 일련번호'].sample(10000, random_state=42) 3-7. 의약품 처방정보 전처리 분석 2022. 10. 13. [1012] EDA, Tidy Data, KOSIS, 정규표현식 3-4. 전국 신규 민간 아파트 분양가격 동향 Pandas 모든 columns 출력 : pd.options.display.max_columns = None melt로 Tidy data 만들기 아래와 같은 데이터 프레임을 melt를 이용해 tidy data로 만들어보자 df_temp = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'}, 'B': {0: 1, 1: 3, 2: 5}, 'C': {0: 2, 1: 4, 2: 6}}) df_temp A B C 0 a 1 2 1 b 3 4 2 c 5 6 melt의 parameters id_vars : 기준이 되는 값, 지정 필수 value_vars : .. 2022. 10. 12. [1011] EDA 3-3. 서울시에서 공개한 코로나19 발생동향 분석 Pandas String Method 판다스 문자열 메소드 Pandas 공식문서: Series String handling df.str.replace(a, b) a가 포함된 모든 문자열을 b로 변경 (일부만 같아도 교체) series에만 사용 가능 정규표현식 사용 가능 df.replace(a, b) a와 완전히 일치하는 데이터를 b로 변경 (완전히 같아야 교체) dataframe, series에 사용 가능 정규표현식 사용 가능, 정규표현식 사용 시 일부 교체 가능 둘의 차이가 나는 이유는? .str은 접근자는 series 문자열 형식에만 사용할 수 있는 series accessor(접근자)이기 때문 Pandas Transpose 판다스 전치행렬 전치행렬.. 2022. 10. 11. 이전 1 2 3 4 5 6 다음