에너지경제연구원 전자도서관

로그인

에너지경제연구원 전자도서관

자료검색

  1. 메인
  2. 자료검색
  3. 통합검색

통합검색

단행본Foundations of programming, statistics & machine learning for business analytics

R과 Python을 활용한 비즈니스 애널리틱스

발행사항
파주 : 생능, 2025
형태사항
519 p. : 삽화 ; 26 cn
소장정보
위치등록번호청구기호 / 출력상태반납예정일
이용 가능 (1)
자료실E208444대출가능-
이용 가능 (1)
  • 등록번호
    E208444
    상태/반납예정일
    대출가능
    -
    위치/청구기호(출력)
    자료실
책 소개
데이터 분석의 여정을 시작하려고 하는데 어디서부터 시작할지 모르겠다면 이 책은 당신에게 도움이 될 것이다. 이 책은 통계학부터 비즈니스에 적용할 수 있는 프로그래밍까지 모든 기초를 다루어 실제 비즈니스 분석을 수행할 수 있는 견고한 기초 지식을 제공한다. 본 책은 비즈니스 분석 및 예측 모델을 개발하는 원칙에 대한 입문 혹은 복습부터 시작해서 적용 방법에 대한 상세한 예시를 제공한다. 주요 통계 개념과 프로그램밍 기술 및 머신러닝 접근법을 소개하여 독자가 데이터 과학과 인공지능 시대에 모델을 설계하고, 개발하는 데 필수적인 기술을 갖출 수 있도록 도와준다. 이 책의 목표는 비즈니스 분석의 포괄적이고 일관된 기본 지식을 제공하여 학생들이 산업에 적합한 비즈니스 분석 및 모델을 설계, 개발 및 적용할 수 있도록 하는 것이다.

여러 해에 걸쳐, 저자진은 비즈니스 분석, 통계, 머신러닝 및 소프트웨어 시스템 응용에 대한 심층적인 전문 지식을 갖추어 왔다. 또한 비즈니스 분석, 머신러닝 및 인공지능에 대한 최첨단 연구를 수행해 왔으며, 분석과 머신러닝이 의사 결정과 사업 운영에 주요 역할을 하는 사업을 운영하고, 창업하며 비즈니스 감각을 유지하고 있다. 저자진은 선도 대학에서 비즈니스 분석, 금융 및 컴퓨터 공학의 다양한 강좌를 개발하고 가르쳤으며, 이러한 경험이 본 교재의 기반이 되었다.

비즈니스 분석은 정보 시대 핵심 역량으로써 글로벌 기업이 디지털 변혁을 추구하고 데이터 자원을 활용하여 경쟁 우위를 실현하고 있다. 이러한 비즈니스 분석은 의사 결정의 주요 요소로 비즈니스 통찰력, 프로그래밍 그리고 통계의 공통 분모이다. 그러나 비즈니스, 통계 혹은 프로그래밍 중 하나 이상의 분야에서 직접적인 경험이나 적절한 지식이 부족하여 비즈니스 분석에 어려움을 겪는 학생들이 많다. 많은 교재에서 통계를 수학적으로 깊게 다루는 것은 비즈니스 학생들에게는 불필요하며, 통계가 실제로 비즈니스 분석을 어떻게 주도하는지에 대한 확실한 개념적 이해가 중요한다. 또한 비즈니스에서 머신러닝이 급속하게 확산되고 있어 학생들은 이에 대한 기술적 이해 그리고 머신러닝이 전통적 통계와 어떻게 연결되는지 알아야 한다.

우리는 이 책이 비즈니스 분석 분야에 진입하려는 많은 학생들과 전문가들에게 접근성이 높아야 한다는 전제로 시작하였다. 따라서 이 책은 사전에 프로그래밍 경험이나 통계 지식이 없는 학생들도 이해할 수 있도록 만들었다. 전통적인 이론과 수학에 집중한 접근 방식으로는 이해하기 힘든 추상적이고 어려운 지식을 이 책은 코딩을 통한 학습 방법으로 풀어간다. 이처럼 비즈니스 실례를 통해 학생들이 실제 비즈니스 문제에 대한 자신만의 통계 및 머신러닝 접근법을 개발할 수 있도록 도와준다.

각 챕터마다 R과 Python 코딩 노트북이 제공되어 지식을 점진적으로 쌓을 수 있다. 실제 비즈니스는 점점 더 복잡해지고 있으며, 범위는 이윤 예측, 신용 불량/부도 예측, 사이버 위협 모니터링부터 벤처 캐피털 기반의 성과 모니터링까지 다양하다. 책의 대부분 챕터에서는 통계 및 머신러닝 개념과 프로그래밍 기술에 대한 능력과 자신감을 키우는 데 도움이 될 연습문제가 포함되어 있다.

이 책은 다음과 같이 구성되어 있다. 처음 네 챕터는 인기 있는 분석 오픈 소프트웨어인 R과 Python을 사용한 프로그래밍 기초를 소개하고 데이터 구조, 데이터 관리 및 조작, 데이터 시각화를 다룬다. 그 다음으로 챕터 5부터 7까지는 과도한 수학적 계산 없이 프로그래밍과 시각화를 통해 직관적인 통계 개념을 배운다. 이후 챕터 8부터 10까지는 기본 통계 검정을 설계하고 수행하는 방법을 배우며, 실제 비즈니스 응용 예제가 제공된다. 챕터 10은 캘리포니아 주의 요양원에 코로나 바이러스가 미친 영향을 조사하는 실제 사례를 다룬다. 챕터 11에서는 통계와 머신러닝 모델링의 핵심 구성요소인 추정에 대해 소개한다. 이는 고급 모델 설계의 기초가 되는 최대 우도 추정 원칙 개념을 다양한 예제와 함께 자세히 소개한다. 챕터12부터 15까지는 선형 모델, 일반 성형모델, 회귀 구조 및 진단, 시계열 분석과 같은 주제를 다룬다. 챕터 16부터 20까지는 응용 분석에서 가장 자주 사용되는 머신러닝 모델에 대해 다룬다.

책 전체를 통틀어서 R과 Python 코드 예제를 제공한다. 관심 있는 언어에 집중할 수 있도록 두 언어는 배경색으로 구분된다. 이 책은 한 언어에만 관심 있는 사람에게도 도움이 되지만, 우리는 두 언어에 대한 능력을 갖추는 것이 학생들에게 득이 될 것이라고 믿는다. 일부 기술은 한 언어에서 구현하기 쉽고, 경우에 따라서는 한 언어에서만 사용 가능하다. 현실적으로 분석 프로젝트 내에서 한 언어에서 다른 언어로 전환할 수 있어야 각 언어의 장점을 모두 활용할 수 있다. 이 책은 독자가 두 언어의 장점을 모두 활용할 수 있도록 도와줄 것이다.

온라인 자료
본 책은 학생과 강사 모두의 학습과 지도를 도와주는 풍부한 온라인 자료를 지원한다. 다음 링크를 활용하자: study.sagepub.com/gopal

강사를 위한 지원
● 코드 노트북: 강사용 버전(강의를 보조하는 추가 자료 포함) 코드와 배경 정보를 제공하여 강의에 도움이 될 것이다. 이는 학생의 필요에 맞게 수정할 수 있는 편집 가능한 노트북 형태로 제공된다.
● 연습문제 솔루션: 연습 문제 솔루션 코드로 수정 가능하다.
● 사용 사례 노트북 : 사용 사례에서 사용한 전체 코드로 수정 가능하다.
● 데이터셋: 책에서 사용한 모든 데이터셋을 제공한다.

학생을 위한 지원
● 코드 노트북: 학생 버전은 책에서 사용한 코드를 포함하여 실행할 수 있는 전체 코드를 제공한다. 이 버전에는 배경 정보가 포함되어 있으며, 실험을 시작하기에 적합하다.
● 데이터셋: 책에서 사용한 모든 데이터셋을 제공한다.
목차

1장 프로그래밍과 통계학 소개
R과 Python을 위한 코드 저장소(Repository)와 빠른 시작 방법
요약
연습문제

2장 데이터 요약과 시각화
인덱싱과 부분추출
조건 지정하기
데이터 요약하기
팩터 변수(Factor Variables)
R에서 수치형 변수(Numerical Variables)
Python에서 수치형 변수(Numerical Variables)
ggplot2로 그래프 그리기
변수 하나로 그래프 그리기
수치형 변수(Numerical Variables)
다중 변수로 그래프 그리기
다중 수치형 변수
다중 팩터 변수
상호 작용 그래프
사용 사례: 산업체 가치 평가 시각화
요약
연습문제

3장 데이터 관리와 준비
데이터 관리
열 선택하기
보조 함수(Helper Functions)
데이터 필터
코드 간소화
열 이름 변경
열 복사
열 정렬
그룹화(Group By)
팩터 변수 기록
사용 사례: Pandas에서 판매 데이터 필터와 정렬, 분할(Bin)
요약
연습문제

4장 프로그래밍 기초
기능들
반복(Looping)
벡터화를 통한 반복문(Loops) 대체
While 문(While Loops)
요약
연습문제

5장 확률, 확률 변수 및 분포
확률 변수
표본 크기
경험적 분포 함수
실용적인 예제
분포의 평균과 분산
일반적으로 사용되는 분포
R과 Python에서 분포 활용
사용 사례: 판매 데이터에서 확률과 분포
요약
연습문제

6장 분포
다중분포
일변량 및 다변량 분포
변형과 합성곱(Transformations and Convolutions)
표본분포(SAMPLING DISTRIBUTIONS)
요약
연습문제

7장 통계 검정 – 개념과 전략
기초 개념
통계 검정 전략
순열 검정법
P-value
판단의 시간
꼬리 이야기
P-value 산출 함수 만들기
심판이 되어 보기
신뢰 구간
요약
연습문제

8장 통계 검정
연속 데이터 통계 검정
범주형 데이터 통계 검정
연속 데이터 두 개에 대한 통계 검정
범주형 데이터 두 개에 대한 통계 검정
요약
연습문제

9장 비모수적 검증
중앙값 검정
두 표본 검정(TWO-SAMPLE TEST)
상관관계 검정
부트스트래핑
합성 데이터와 GANs
요약
연습문제

10장 현실 직시(PDF로 제공)
요양원과 Covid-19
요약
연습문제

11장 추정의 기본 원칙
우도(Likelihood) 원칙
수학적 최적화
또 다른 분산
연산 최적화
수치 결과
이진 결과
몇 가지 주의할 점
요약
연습 문제

12장 선형 모델 추정
선형 회귀 분석 모델
R과 Python에서 회귀 분석 함수
사용 예제: 선형 회귀 분석을 이용한 이익 예측
요약
연습문제

13장 일반 선형 모델
이진 결과
가산 결과
모델 적합도
R과 Python에서 함수
R
요약
연습문제

14장 회귀 분석과 구조
진단
이분산성(Heteroscedasticity)
다중 공선성(Multicollinearity)
회귀 분석 구조
변수 선정
사용 사례: 이익 예측, 안전 우선 선형 회귀를 위한 단계
요약
연습문제

15장 시계열(imeseries) 및 예측
시계열 구성: 트렌드, 계절성 및 노이즈(Noise)
데이터 준비: 이동 평균을 이용한 계절성 제거
간단 예측: 외삽(Extrapolation)
예측가의 가장 친한 친구: 시간 의존성(자기 상관)
자기회귀 분석(Autoregression, AR)을 이용한 예측
변화 예측: 트렌드가 당신의 친구가 아닐 때
예측 킬러: 유동성(Nonstationarities)
변화 예측: AR과 MA 결합(ARIMA)
요약
연습문제

16장 머신러닝 소개
예제 1: 분류 모델에 의사결정 트리(Decision Tree) 적용
예측 및 정확도(Accuracy)
일반화(Generalization), 과적합(Overfitting), 정규화(Regularization)
예제 2: 모델을 정규화하여 일반화 개선
요약
연습문제

17장 모델 선택과 교차 검증
모델 선택
다른 분류기– 최근접 이웃(Nearest Neighbour)
하이퍼-파라미터 튜닝(Hyper-Parameter Tuning)
모델 성능 추정
사용 사례: 어플리케이션 등급을 모델링하는 의사결정 트리
요약
연습문제

18장 머신러닝에서 선형 회귀 분석 모델
손실 최소화 vs 모델 추정
선형 회귀 분석
최소 제곱 최적화(Least Squares Optimization)
회귀 분석 예제
과소적합(Underfitting)을 해결하기 위한 피쳐 확장
비선형 모델 최적화
더 어려운 학습 문제
요약
연습문제

19장 분류 모델 및 평가
분류 및 확률
서로 다른 분류기 비교
합성 데이터 예제 1
합성 데이터 예제 2
머신러닝 이론에 대한 개요
사용 사례: 신용 위험 – 불량 신용 식별
클래스 불균형 다루기
요약
연습문제

20장 머신러닝 자동화(PDF로 제공)
모델링 파이프라인 자동화
요약
연습문제

찾아보기

지은이 소개