본문 바로가기

전체 글65

[HML2] Decision Tree와 화이트박스 핸즈온 머신러닝 이 책은 지능형 시스템을 구축하려면 반드시 알아야 할 머신러닝, 딥러닝 분야 핵심 개념과 이론을 이해하기 쉽게 설명한다. 사이킷런, 케라스, 텐서플로를 이용해 실전에서 바로 활용 가능한 예제로 모델을 훈련하고 신경망을 구축하는 방법을 상세하게 안내한다. 장마다 제공하는 연습문제를 풀며 익힌 내용을 확인하고 응용할 수도 있다. 머신러닝을 배우고 싶지만 어디서부터 시작해야 할지 막막하다면, 이 책이 인공지능 마스터로 가는 길에 좋은 친구가 될 것이다. 2판은 텐서플로 2를 반영하고 비지도 학습, 자연어 처리, 생성적 적대 신경망(GAN) 등 최신 기법을 추가했다. 저자 오렐리앙 제롱 출판 한빛미디어 출판일 2020.05.04 결정 트리 Decision Tree 결정 트리(Decision Tr.. 2022. 11. 3.
[1102] TIL 사실(Fact) : 타이타닉 데이터를 이용한 결측치 채우기 및 데이터 인코딩 느낌(Feeling) : 3시쯤부터 정신이 혼미해졌다. 교훈 (Finding) : 복습 복습 복습 복습 복습... 2022. 11. 2.
[1101] TIL 사실(Fact) : 타이타닉 데이터를 이용한 전처리와 지니불순도에 대해 배웠다. 느낌(Feeling) : 수식에 의문을 갖지 않겠습니다. 교훈 (Finding) : 복습하자… 2022. 11. 1.
[1101]지니 불순도, 엔트로피와 타이타닉 데이터 전처리 타이타닉 데이터 Q. 당뇨병 데이터셋보다 더 난이도가 있는 이유는? A. 전처리할 데이터가 많다(결측치, 다양한 데이터 형식, 더 큰 크기) 데이터 전처리 정규화(Normalization) : 숫자 스케일의 차이가 클 때 값을 정규분포로 만들어 주거나 스케일 값을 변경해 주는 것 이상치(Outliers) : 이상치를 제거하거나 대체 대체(imputation) : 결측치를 다른 값으로 대체 인코딩(encoding) : 호칭, 탑승지의 위치, 문자 데이터를 수치화, 너무 범위가 큰 수치 데이터를 구간화 머신러닝과 데이터 타입 머신러닝 내부에서는 수치 데이터만 연산 가능 => 중요 feature의 경우 수치 데이터로 변환 필요 binary encoding : bool 값 등으로 변환 해주는 것(머신러닝 알고리.. 2022. 11. 1.
[1031] TIL 사실(Fact) : 회귀의 평가 지표와 하이퍼 파라미터 튜닝에 대해 배웠다. 느낌(Feeling) : 그리드 서치와 랜덤 서치의 파라미터 부분에서 멍때린게 많다.어려운건지 지친건지 교훈(Finding) : 그리드, 랜덤 서치 부분 복습을 철저히 하자 2022. 10. 31.
[1031] 분류와 회귀의 평가 지표와 하이퍼 파라미터 튜닝 회귀(regression)의 평가 지표(측정 공식) 회귀 알고리즘부터는 정확도가 아닌 오차값을 측정하여 모델의 성능을 평가함 => R2 Score는 클수록(1에 가까울수록) 모델이 좋은 성능을 보이며, MAE, MAPE, MSE, RMSE는 작을수록(0에 가까울수록) 좋다 MAE Mean Absolute Error, 평균 절대 오차 예측값과 실제값의 차이에 대한 절대값의 평균 오차의 산포도를 양수, 음수 동일하게 비교하기 위해서 절댓값을 씌움 abs(y_train - y_predict).mean() MAPE Mena Ablsoute Percentage Error (실제값 - 예측값 / 실제값)의 절대값에 대한 평균 abs((y_train - y_predict)/y_train).mean() MSE Mean.. 2022. 10. 31.
지도 학습, 비지도 학습, 강화 학습 [작성중] 현대 기술 시대에는 정형 또는 비정형 데이터가 매우 풍부하다. 20세기 후반에 데이터에서 지식을 추출하여 예측하는 자기 학습(self-learning) 알고리즘과 관련된 인공 지능의 머신러닝이 출현했다. 사람이 수동으로 대량의 데이터를 분석하여 규칙을 유도하고 모델을 만드는 대신, 머신러닝이 데이터에서 더 효율적으로 지식을 추출하여 예측 모델과 데이터 기반의 의사 결정 성능을 점진적으로 향상시킬 수 있다.(머신러닝 교과서 3판, Sebastian Raschka) 머신러닝은 세 가지 종류로 구분된다. 레이블(정답)이 있는 데이터로 진행하는 지도 학습, 레이블과 타깃이 없는채로 진행되는 비지도 학습, 보상 시스템을 통해 연속된 행동에서 학습하는 강화 학습이다. 1. 지도 학습 지도 학습의 주요 목적은 레이블.. 2022. 10. 27.
2021 캐글 통계로 보는 머신러닝 개발환경 통계 1. 압도적인 Jupyter Notebook(73.5%) 2. VSCode : 파이썬 창시자가 google 이직한 뒤로 무섭게 상승 중 3. JupyterLab : Jupyter Notebook의 진화버전 Methods와 Algorithms 사용 1. 선형회귀와 로지스틱 회귀 2. 의사결정나무와 랜덤 포레스트 3. xgboost 등 Machine Learning Library 1. Scikit-Learn 2. tensorflow 4, 5. keras, tensorflow => Scikit-Learn 부터 하나씩 배워나갈 예정이다! 참고 https://www.kaggle.com/kaggle-survey-2021 2022. 10. 27.
머신러닝 시작! 지난 1학기...나를 괴롭혔던 머신러닝을 다시금 배웠다. 학교 수업은 통계나 선형대수 지식을 전제로 수업을 하셔서 무슨 소리인가 싶었으나, AIS7은 모른다는 걸 전제로 해주니 훨씬 배우기 쉬운 듯하다. 물론 앞에서 한번 쓰윽 흝어본 까닭도 있겠지만. 이 카테고리에서는 머신러닝에 대해 배우거나 새롭게 알게 된 내용을 정리할 예정이다. 처음에는 멋쟁이사자처럼 AIS7 오늘코딩 카테고리에 있는 걸 다시금 정리하는데 그칠 수 있겠으나, 나중에는 핸즈온머신러닝이나 머신러닝교과서와 같은 책에서 배운 내용을 정리하는 것까지가 목표다. 지난 학기에 사둔 비싼 책들을 써먹어야지... 2022. 10. 27.
[Mid Project] 내 거친 성적과 불안한 공교육 상세 코드와 내용은 아래의 링크를 참고하자. github: https://github.com/YeonGun0/Structure/tree/main streamlit : https://ljedd2-midp-streamlit-intro-kizzcq.streamlitapp.com/ 소감 및 회고 첫 미드 프로젝트가 끝났다. 처음에는 우여곡절을 겪는 듯 했으나 생각보다 잘 풀렸던거 같다. 처음에 잡았던 주제는 '코로나 전후로 상권/사업 변화 분석' 에 대한 것이었으나, 주제에 대한 조사가 미흡해서 기각되었다. 데이터의 유무를 확인했어야 했는데, 처음 잡는 주제이다보니 서로 놓친 부분이 있었다. 이후 주제를 한 번 갈아 엎고 나온 것이, 이번 결과물과 관련된 ''초중등 시험 폐지"다. 최근 들어 초등학교 시험의 부.. 2022. 10. 27.