에너지경제연구원 전자도서관

로그인

에너지경제연구원 전자도서관

자료검색

  1. 메인
  2. 자료검색
  3. 통합검색

통합검색

단행본

파이썬을 이용한 통계적 머신러닝

저자
박유성
판사항
제4판
발행사항
파주 : 자유아카데미, 2023
형태사항
ix, 520 p. : 삽화(일부천연색), 도표 ; 26 cm
서지주기
참고문헌과 색인 수록
소장정보
위치등록번호청구기호 / 출력상태반납예정일
이용 가능 (1)
자료실E208334대출가능-
이용 가능 (1)
  • 등록번호
    E208334
    상태/반납예정일
    대출가능
    -
    위치/청구기호(출력)
    자료실
책 소개
머신러닝은 주어진 데이터만을 이용하여 예측, 분류, 차원축소, 생성, 재생 등을 실행하는 데이터과학 모형을 말한다. 통계학에서는 데이터에 대한 가정을 바탕으로 상당한 수준의 통계적, 수학적 지식을 이용하여 추정, 검정, 예측 등의 통계적 추론을 하게 된다. 그러나 머신러닝은 데이터에 대한 가정 없이 주어진 데이터만으로 좋은 통계적 추론을 도출할 수 있도록 데이터의 split, sample weights, resampling, randomization 등으로 통계학의 기본조건을 충족시키고 있다. 그러므로 통계학의 기본조건이 무엇인지를 알아야 머신러닝의 근간을 이해할 수 있고 이를 바탕으로 자신만의 성능이 우수한 머신러닝 모형을 개발할 수 있다.

통계학의 기본조건은 주어진 데이터가 미지의 모집단으로부터의 임의표본이며, 이러한 임의표본은 반복해서 추출할 수 있다는 가정이다. 임의표본이란 표본이 미지의 모집단으로부터 하게 추출되었다는 의미로, 간단하게 말해서 주어진 데이터가 미지의 모집단을 잘 대표하게 뽑혔다는 말이 된다. 두 번째 가정인 반복적 임의표본추출은 통계학의 이론적 추론을 가능하게 하여 수리통계학과 확률론의 근간을 제공한다.

그러나 실제 문제에서는 데이터셋 하나만 관측되었을 뿐이다. 머신러닝에서는 데이터의 shuffling을 전제로 한 split과 resampling을 통해, 통계학의 임의표본과 반복추출된 임의표본을 실제로 구현해서 다양한 통계적 추론을 하게 된다. 이 이상의 추가적인 수학적, 통계적 지식은 불필요하다. 통계학에서처럼 모형은 맞지만 모형에 있는 모수만 모른다는 불합리한 가정도 하지 않으며, 단지 데이터의 split을 통해 모형이 맞는지 그리고 모수추정이 제대로 되었는지를 쉽게 점검할 수 있다. resampling을 통해 보다 정밀한 통계적 추론이 가능하고 특히 bagging이라는 앙상블러닝을 실행할 수 있다. 표본별 중요도에 따라 가중치를 부여하는 것을 표본 weights라고 한다. 표본 weight는 K-nearest neighborhood를 기반으로 하는 모든 통계적 기법과 최첨단 모형인 boosting에서 사용하며 머신러닝에서 모수를 추정하기 위한 목적함수인 손실함수에 이용된다. randomization은 모형이 불필요한 잡음(noise)마저 학습했는지를 점검하는 중요한 수단이다.

그러므로 split, sample weights, resampling, 그리고 randomization라는 keyword를 가지고 이 책을 읽고 이해한다면 여러분은 통계적 기본원리와 머신러닝의 방법론이 어떻게 융합되었는지를 습득했다고 생각해도 된다. 그러면 이 책의 주제인 통계적 머신러닝에 이어서 공부해야 할 딥러닝, 강화학습, XAI, 그리고 필요시 시계열분석까지 AI 분석 모형들의 여행을 큰 어려움 없이 나아갈 수 있을 것이다. 이러한 관점에서 제1장을 꼼꼼히 읽어 보고 주어진 코드를 실행해 보는 것은 앞의 네 가지 keywords를 체험적으로 이해할 수 있도록 해준다.

좋은 책을 위해 최선을 다했지만 부족한 부분이 있을 수 있다. 이 점은 양해를 바라며, 출간 후에 나올 수 있는 수정사항 등은 자유아카데미 홈페이지 자료실(www.freeaca.com)에 제공할 예정이니 참고 바란다. 끝으로 이 책의 개념도를 그려준 박진세 군에게 감사의 마음을 전하며, 끊임없는 성원과 사랑으로 지원을 아끼지 않은 사랑하는 아내와 딸아이에게도 감사한 마음을 전한다.
목차
Chapter 1 통계학의 원리와 머신러닝 1.1 좋은 데이터란? 1.2 모형과 오차항의 역할 1.3 데이터의 split, weight, 그리고 resampling 1.4 통계적 머신러닝, 딥러닝, 그리고 강화학습 1.5 AI 모형과 손실함수 1.6 자료분석 절차, 모형의 요약 1.7 Data Scientist에 필요한 AI 지식 Chapter 2 사전과정과 최적화 2.1 실수자료로의 전환 2.2 자료의 특성 2.3 사례분석 2.4 불균형자료의 처리 2.5 특성변수의 선택 2.6 손실함수와 최적화 Chapter 3 데이터 시각화 3.1 AutoViz 3.2 Bamboolib 3.3 Plotly Chapter 4 K-Nearest Neighbors 4.1 KNN의 적용 4.2 커널분포함수 추정 Chapter 5 로지스틱 회귀 분류 5.1 적응선형뉴런 5.2 로지스틱 회귀 5.3 과대적합에 대한 규제화 5.4 Scikit을 이용한 로지스틱 회귀 Chapter 6 판별분석과 단순베이즈모형 6.1 판별분석 6.2 단순베이즈모형 6.3 Scikit learn을 이용한 LDA와 단순베이즈모형 Chapter 7 분류와 회귀나무 7.1 회귀나무 7.2 분류나무 7.3 Scikit learn을 이용한 의사결정나무 Chapter 8 써포트벡터머신 8.1 써포트벡터머신 8.2 커널 SVM 8.3 Sklearn을 이용한 SVM Chapter 9 차원축소 9.1 특잇값 분해 9.2 확률화 PCA 9.3 커널 PCA 9.4 요인분석 9.5 선형판별분석을 통한 차원축소 9.6 시각화를 위한 차원축소 9.7 Sklearn을 이용한 차원축소 Chapter 10 오차분석, 자료분할, 초모수 조절 10.1 오차분석 10.2 자료 분할 10.3 초모수 조절 10.4 교차검증 Chapter 11 회귀분석 11.1 선형회귀모형 11.2 Quantile 회귀 11.3 로버스트 회귀 11.4 SVM 회귀와 커널 SVM 회귀 11.5 규제화된 선형회귀모형 11.6 Scikit learn을 이용한 회귀분석 Chapter 12 군집 12.1 K-means 군집 12.2 계층적 군집 12.3 DBSCAN과 HDBSCAN 12.4 Scikit learn을 이용한 군집 Chapter 13 앙상블학습 13.1 Bagging, Pasting, 그리고 Random forest 13.2 앙상블학습을 위한 통계적 머신러닝의 특성 13.3 아다부스트 13.4 기울기부스팅 13.5 XGBoost 13.6 LightGBM 13.7 CatBoost 13.8 적용사례 Chapter 14 XGBoost, LightGBM, CatBoost의 비교와 특성 14.1 전통적 통계모형과의 비교: 회귀 14.2 XGBoost, LightGBM, CatBoost에서의 특성변수의 중요도와 효과 14.3 전통적 통계모형과의 비교: 분류 Chapter 15 Bagging과 Boosting 15.1 Decision Tree 15.2 Random Forest 15.3 Gradient Boosting 15.4 분류 Chapter 16 XGBoost, LightGBM, CatBoost의 초모수의 특성과 튜닝 16.1 수렴속도 비교 16.2 초모수의 비교와 튜닝 16.3 불균형자료의 처리 Chapter 17 메타모형과 모형자동화 17.1 메타모형 17.2 모형의 자동화 Chapter 18 감성분석 18.1 감성분석 18.2 파이썬을 이용한 사례 분석 참고문헌 연습문제 해설 찾아보기