본문 바로가기

전체 글65

[1026] TIL 사실(Fact): feature engineering과 cross-validation, regression 약간을 배웠다. 느낌(Feeling): 용어가 어려워서 우주여행을 하고 왔다. 교훈(Finding): 복습도 복습이지만 심평원 교재로 통계 용어에 익숙해져야겠다. 2022. 10. 26.
[1026] Feature Engineering & K-fold Cross Validation intro 지난 수업(과제) 복습 결측치를 처리하고 중요도를 시각화했을 때, insulin 의 중요도가 제일 크게 나옴 => 개인이 설정한 하이퍼 파라미터에 따라 중요도는 상이 정확도(스코어)가 높으면 성능이 좋다고 할 수 있으나, 데이터마다 상이 Feature Enginering 결측치 처리 IQR : raw data에 가까운 Insulin_nan을 기준으로 진행(Insulin_fill은 조작된 값)IQR = desc[&#39;75%&#39;] - desc[&#39;25%&#39;] max_out = desc[&#39;75%&#39;] + (IQR * 1.5) df[df["Insulin_fill"] < max_out] IQR = df[&#39;Insulin_nan&#39;].quantile(0.75) .. 2022. 10. 26.
[1025] TIL 사실(Fact): 의사결정나무(Decision Tree)와 Feature EDA에 대해 배웠다. 느낌(Feeling): 로그랑 시그마가 뭐였지...? + domain 지식의 중요성을 다시금 깨달았다. 교훈(Finding): 수학책을 좀 찾아봐야겠다... 2022. 10. 25.
[1024] TIL 사실(Fact): 미드 프로젝트 발표를 진행하고 머신러닝 기초를 배웠다. 느낌(Feeling): 매도 일찍 맞는게 낫다 + 드디어 머신러닝...! 교훈(Finding): 다른 팀 자료들을 한 번 살펴보고, 사두고 버려둔 머신러닝 책을 뒤적거려야겠다 2022. 10. 25.
[1025] Machine Learning intro 지난 수업(1024) 복습 cf. nvidia, 그래픽카드 분류와 회귀가 머신러닝의 핵심, 군집화와 차원축소는 분석 및 시각화 분류(classification)의 예시, 회귀(regression)의 예시 머신러닝 모델학습과 예측과정 데이터 검색 => 데이터 전처리 => Feature Engineering => 모델링 => fit/predict => 평가 Data Preprocessing : normalization(정규화), outlier(이상치) 처리, 결측치(모델에 있으면 에러) imputation or 제거, one-hot-encoding 등 => 이번주 과제로 예습! 지도학습: 기존의 데이터(기출문제와 정답)으로 공부(fit)를 하고, 실전문제를 풀어서(predict) 채점함(evalu.. 2022. 10. 25.
[1024] ML Tools 드디어, 머신러닝 Machine Learning Library 새롭게 등장하는 수많은 도구들로 무엇을 할 수 있을까? 문서화가 훌륭한 파이썬의 특징을 참고해 외우는 게 아니라 적재적소로 써먹는 법을 배우자. Kaggle 설문 Scikit-learn : ML, 특히 정형데이터를 다룰 때 많이 사용 TensorFlow : DL, 2.0부터 Keras를 api로 채택 Keras : DL, TensorFlow를 쉽게 추상화 Xgboost : ML PyTorch : DL ... 작업툴 3대장 Jupyter Notebook 73.5% VSCode : 파이썬 창시자의 google 이직...! JupyterLab : Jupyter Notebook의 진화버전 선형 알고리즘, 트리 알고리즘 ... AutoML : 너무 잘.. 2022. 10. 24.
[1013] TIL - 사실(Fact) : 데이터 샘플링과 파생변수를 이용한 데이터 전처리에 대해 배웠고, 데이터 시각화를 복습했다. - 느낌(Feeling) : 파생변수 만드는게 우주여행하는 기분이었고, 데이터 시각화는 왜 볼때마다 새로운지 참담한 심경다. - 교훈(Finding) : 데이터 시각화 복습하고 파생변수 다시 살펴보자 2022. 10. 13.
[1013] EDA, Data Sampling, 파생변수를 이용한 Data 가공, 시각화(3-7 미작성) 3-6. 의약품 처방정보 샘플링 전수조사를 하기엔 데이터가 너무 방대하므로 표본조사를 실행함 numpy 를 이용한 샘플링 np.random.seed np.random.default_rng 코드 np.random.seed(42) sample_no = np.random.choice(raw['가입자 일련번호'].unique(), 10000) rng = np.random.default_rng(42) sample_no = rng.choice(raw['가입자 일련번호'].unique(), 10000) pandas 를 이용한 샘플링 df.sample() 코드 sample_no = raw['가입자 일련번호'].sample(10000, random_state=42) 3-7. 의약품 처방정보 전처리 분석 2022. 10. 13.
[1012] TIL - 사실(Fact) : Tidy Data로 만드는 melt와 정규표현식 등을 이용한 데이터 전처리를 배웠고 데이터 시각화를 복습했다. - 느낌(Feeling) : 아무래도 데이터 시각화는 계속 보지만, 나랑 잘 안맞는거 같다. - 교훈(Finding) : 앞으로 데이터 시각화는 의무적으로라도 복습을 꾸준히 해야겠다. seaborn이랑 plotly 예제를 따라해보자. 2022. 10. 12.
[1012] EDA, Tidy Data, KOSIS, 정규표현식 3-4. 전국 신규 민간 아파트 분양가격 동향 Pandas 모든 columns 출력 : pd.options.display.max_columns = None melt로 Tidy data 만들기 아래와 같은 데이터 프레임을 melt를 이용해 tidy data로 만들어보자 df_temp = pd.DataFrame({&#39;A&#39;: {0: &#39;a&#39;, 1: &#39;b&#39;, 2: &#39;c&#39;}, &#39;B&#39;: {0: 1, 1: 3, 2: 5}, &#39;C&#39;: {0: 2, 1: 4, 2: 6}}) df_temp A B C 0 a 1 2 1 b 3 4 2 c 5 6 melt의 parameters id_vars : 기준이 되는 값, 지정 필수 value_vars : .. 2022. 10. 12.