
단행본Probably Overthinking ItHow to Use Data to Answer Questions, Avoid Statistical Traps, and Make Better Decisions
통계의 함정: 통계의 역설로 본 환상과 거짓
- 저자
- Downey, Allen B. | 김상현
- 발행사항
- 서울 : 에이콘, 2024
- 형태사항
- 328p. : 삽화 ; 23cm
- 원표제
- Probably Overthinking It: How to Use Data to Answer Questions, Avoid Statistical Traps, and Make Better Decisions
- 서지주기
- 참고문헌 및 색인 (p.313-322) 수록
- 주제명
- Statistics
소장정보
위치 | 등록번호 | 청구기호 / 출력 | 상태 | 반납예정일 |
---|---|---|---|---|
이용 가능 (1) | ||||
자료실 | E208314 | 대출가능 | - |
이용 가능 (1)
- 등록번호
- E208314
- 상태/반납예정일
- 대출가능
- -
- 위치/청구기호(출력)
- 자료실
책 소개
◈ 이 책의 구성 ◈
이 책에서 다루는 몇몇 사례들은 기존에 출간된 연구 내용이고, 다른 경우는 데이터에 대한 내 나름의 관찰과 탐구 내용이다. 이전 연구 결과를 그대로 보고하거나 수치를 베끼기보다는 해당 분석을 따라해 보고, 스스로 수치를 만들었다. 어떤 경우는 오리지널 작업이 검증을 통과하지 못했고, 그런 사례는 이 책에서 제외했다. 일부 사례의 경우, 나는 더 최근 데이터를 가지고 같은 분석을 수행할 수 있었다. 이런 업데이트는 미처 예상하지 못한 깨우침도 주었다. 예컨대 '출생 시 저체중의역설'은 1970년대에 처음 관찰됐고 1990년대까지 지속됐지만 최근 데이터에서는 사라졌다.
이 책에 소개된 모든 작업은 재현 가능한 과학 분야의 툴과 방법론에 근거하고 있다. 나는 주피터(Jupyter) 노트북을 사용해 글과 컴퓨터 코드와 결과들을 한 문서로 통합했다. 이 문서들은 버전 관리 시스템으로 정리함으로써 일관성과 정확성을 확보했다. 최종적으로 나는 넘파이(NumPy), 사이파이(SciPy), 판다스(pandas) 등과 같이 신뢰할 수 있는 오픈소스 라이브러리를 이용해 약 6000줄의 파이썬 코드를 작성했다. 물론 내 코드에 버그가 있을 수도 있지만, 결과들에 심각하게 영향을 미치는 오류의 위험을 최소화하기 위해 테스트를 거쳤다. 나의 주피터 노트북은 온라인에 공개돼 있기 때문에 누구라도 내가 실행한 분석을 손쉽게 재현해 볼 수 있다.
이 책에서 다루는 몇몇 사례들은 기존에 출간된 연구 내용이고, 다른 경우는 데이터에 대한 내 나름의 관찰과 탐구 내용이다. 이전 연구 결과를 그대로 보고하거나 수치를 베끼기보다는 해당 분석을 따라해 보고, 스스로 수치를 만들었다. 어떤 경우는 오리지널 작업이 검증을 통과하지 못했고, 그런 사례는 이 책에서 제외했다. 일부 사례의 경우, 나는 더 최근 데이터를 가지고 같은 분석을 수행할 수 있었다. 이런 업데이트는 미처 예상하지 못한 깨우침도 주었다. 예컨대 '출생 시 저체중의역설'은 1970년대에 처음 관찰됐고 1990년대까지 지속됐지만 최근 데이터에서는 사라졌다.
이 책에 소개된 모든 작업은 재현 가능한 과학 분야의 툴과 방법론에 근거하고 있다. 나는 주피터(Jupyter) 노트북을 사용해 글과 컴퓨터 코드와 결과들을 한 문서로 통합했다. 이 문서들은 버전 관리 시스템으로 정리함으로써 일관성과 정확성을 확보했다. 최종적으로 나는 넘파이(NumPy), 사이파이(SciPy), 판다스(pandas) 등과 같이 신뢰할 수 있는 오픈소스 라이브러리를 이용해 약 6000줄의 파이썬 코드를 작성했다. 물론 내 코드에 버그가 있을 수도 있지만, 결과들에 심각하게 영향을 미치는 오류의 위험을 최소화하기 위해 테스트를 거쳤다. 나의 주피터 노트북은 온라인에 공개돼 있기 때문에 누구라도 내가 실행한 분석을 손쉽게 재현해 볼 수 있다.
목차
1장. 당신은 정상인가? 힌트: 아니오
__존재…팔 길이
__왜?
__분포도 비교
__얼마나 가우스적인가?
__‘평균 남성’의 신화
__빅 파이브
__우리는 모두 똑같이 비정상이다
__하지만 누군가는 다른 이들보다 더 평등하다
__출처와 관련 문헌
2장. 릴레이 경주와 회전문
__강좌 크기
__데이터의 편향성 제거
__내 기차는 어디에?
__당신은 인기가 있는가? 힌트: 아니오
__슈퍼 전파자 찾기
__도로에서 느끼는 분노
__그냥 한 번 방문하는 경우
__재범률
__검사의 역설은 어디에나 널렸다
__출처와 관련 문헌
3장. 전통을 거부하고 세계를 구하라
__가족의 규모
__대공황과 베이비 붐
__더 최근에는
__프레스턴의 역설
__한 자녀를 덜 낳으면
__장기적으로는
__현실은
__현재
__출처와 관련 문헌
4장. 극한치의 사람들, 아웃라이어들 그리고 역대 최고들(GOATs)
__예외
__출생 체중은 가우스적이다
__체중 증량 시뮬레이션
__달리는 속도
__체스 순위
__역대 최고
__우리는 무엇을 해야 할까?
__출처와 관련 문헌
5장. 새것보다 나은
__전구
__지금이라도 곧
__암 환자의 생존 기간
__출생 시 기대 수명
__아동 사망률
__불멸의 스웨덴인
__출처와 관련 문헌
6장. 속단하기
__수학과 구술 능력
__엘리트 대학교
__덜 우수할수록 더 커지는 상관관계
__세컨티에이 대학교
__병원 데이터에 나타난 벅슨의 역설
__벅슨과 COVID-19
__벅슨과 심리학
__벅슨과 우리
__출처와 관련 문헌
7장. 인과, 충돌 그리고 혼란
__300만 명의 유아 데이터가 틀릴 수 없다
__다른 그룹들
__역설의 끝
__쌍둥이의 역설
__비만의 역설
__벅슨의 토스터
__인과 관계의 다이어그램
__출처와 관련 문헌
8장. 재난의 긴 꼬리
__재난의 분포
__지진
__태양 플레어
__달 분화구
__소행성
__긴 꼬리 분포도의 기원
__주식 시장의 붕괴
__블랙 스완과 그레이 스완
__긴 꼬리 분포도의 세계
__출처와 관련 문헌
9장. 공정과 오류
__의료 검사
__더 높은 유병률
__더 높은 특이도
__나쁜 의학
__음주 운전
__백신의 유효성
__범죄 예측
__그룹 비교
__공정성은 정의하기 어렵다
__공정성은 성취하기 어렵다
__기저율의 모든 것
__출처와 관련 문헌
10장. 펭귄, 염세주의자 그리고 역설
__늙은 낙관주의자, 젊은 비관주의자
__실질 임금
__펭귄들
__심슨의 처방
__백신은 효과가 있는가? 힌트: 그렇다
__실체 폭로 재론
__공개 데이터, 공개 토론
__출처와 관련 문헌
11장. 마음 바꾸기
__나이든 인종차별주의자들?
__젊은 페미니스트들
__동성애 공포증의 괄목할 만한 감소
__1990년에 무슨 일이 있었나?
__집단 효과인가, 아니면 시대 효과인가?
__오버튼 창
__출처와 관련 문헌
12장. 오버튼 창을 좇아서
__늙은 보수주의자, 젊은 자유주의자?
__‘보수주의적’이라는 것은 무슨 뜻인가?
__어떻게 이럴 수 있을까?
__중심은 정지해 있지 않다
__모든 것은 상대적이다
__우리는 더 양극화했는가?
__오버튼을 좇아서
__출처와 관련 문헌
__부록: 15개의 질문