분야
분야 전체
크레마클럽 허브

숫자에 약한 사람들을 위한 통계학 수업

데이터에서 세상을 읽어내는 법

데이비드 스피겔할터 저/권혜승,김영훈 | 웅진지식하우스 | 2020년 8월 26일 한줄평 총점 9.2 (11건)정보 더 보기/감추기
  •  종이책 리뷰 (5건)
  •  eBook 리뷰 (1건)
  •  한줄평 (5건)
분야
자연과학 > 수학
파일정보
EPUB(DRM) 39.69MB
지원기기
iOS Android PC Mac E-INK

숫자에 약한 사람들을 위한 통계학 수업

이 상품의 태그

책 소개

“통계학은 빅데이터 시대의 새로운 필수 교양이다”
집값 예측부터 질병 추적, 살인 패턴 분석까지
넘치는 정보 속 세상의 모든 답은 통계에 숨어 있다!


-햄, 소시지가 암 발병률을 18% 높인다고 하던데, 그럼 다섯 중 하나꼴로 암에 걸린단 말인가?
-사고 다발 지역에 과속 단속 카메라를 설치했기 ‘때문에’ 교통사고가 줄어든 걸까?
-통상적인 기대 사망자 수보다 몇 명이나 더 죽어야 연쇄살인임을 알 수 있을까?

통계는 개별 자료들을 분석해 전체적인 상태를 유추하고 이를 구체적인 숫자로 나타낸 것이다. 통계는 하나씩 따로 봤을 때는 복잡하고 혼란스러워 보이던 것들에서 어떤 흐름이나 패턴을 보여주기 때문에, 주식 차트부터 인구 분포까지 통계는 다방면으로 사용된다. 특히 개인의 취향과 관심사마저 수량화되는 빅데이터 시대에 통계적 분석과 사고 능력은 읽고 쓰는 능력만큼이나 중요하다.

『숫자에 약한 사람들을 위한 통계학 수업』은 단순히 평균이나 표준편차를 계산하는 것이 아닌, 데이터에서 의미 있는 패턴과 관계를 연구하는 통계학을 선보인다. 또한 실세계의 데이터와 예제를 활용해 통계학이 일상의 소소한 호기심부터 사회·경제·과학·의학 분야의 다양한 문제들을 해결하는 데 유용한 도구임을 보여준다. 이 책을 통해 독자들은 부분에서 전체를 이해하고, 숫자 너머 세상의 흐름을 올바르게 읽어내는 통계적 사고의 힘을 얻을 수 있다.
  •  책의 일부 내용을 미리 읽어보실 수 있습니다. 미리보기

목차

들어가며
1장 비율로 표시하기: 범주형데이터와 백분율
2장 숫자들을 요약하고 전달하기: 데이터의 위치, 퍼짐, 관계
3장 부분에서 전체를 추론하기: 모집단과 측정
4장 무엇이 무엇의 원인인가?: 인과관계
5장 관계를 모형화하기: 회귀 모형
6장 분석하기와 예측하기: 알고리즘
7장 추정을 얼마나 확신할 수 있나?: 표본의 크기와 불확실성 구간
8장 불확실성과 변동성의 언어: 확률 법칙과 이론
9장 확률과 통계가 만났을 때: 확률 모형에 기초한 통계적 추론
10장 질문에 대답하기와 발견을 주장하기: 가설 검정과 통계적 유의성
11장 경험으로부터 배우기: 베이즈 방법
12장 일들은 어떻게 잘못되는가?: 오류와 속임수
13장 더 나은 통계학을 위하여: 신뢰성과 윤리 문제
14장 결론: 통계학을 잘하는 10가지 방법
감사의 말
용어집
미주
찾아보기

상세 이미지

상세 이미지

저자 소개 (3명)

저 : 데이비드 스피겔할터 (David Spiegelhalter)
영국의 통계학자. 케임브리지대학교의 윈턴 위험 및 증거 커뮤니케이션 센터(Winton Centre for Risk and Evidence Commu-nication) 회장을 맡고 있다. 옥스퍼드대학교를 졸업했고, 유니버시티 칼리지 런던에서 과학 석사학위와 철학 박사학위를 받았다. 2007~2018년 케임브리지대학교 통계학 교수를 역임했다. 그간의 연구 업적을 인정받아 2014년 엘리자베스 2세 여왕으로부터 기사 작위를 받았으며, 2020년 왕립통계학회에서 가이메달(Guy Medal) 금상을 수상했다. 2017~2018년 왕립통계학회 회장을 지냈고, 2020년 현재 영국 정부의 통... 영국의 통계학자. 케임브리지대학교의 윈턴 위험 및 증거 커뮤니케이션 센터(Winton Centre for Risk and Evidence Commu-nication) 회장을 맡고 있다. 옥스퍼드대학교를 졸업했고, 유니버시티 칼리지 런던에서 과학 석사학위와 철학 박사학위를 받았다. 2007~2018년 케임브리지대학교 통계학 교수를 역임했다. 그간의 연구 업적을 인정받아 2014년 엘리자베스 2세 여왕으로부터 기사 작위를 받았으며, 2020년 왕립통계학회에서 가이메달(Guy Medal) 금상을 수상했다. 2017~2018년 왕립통계학회 회장을 지냈고, 2020년 현재 영국 정부의 통계위원회 비상임위원으로 활동하고 있다. 통계 증거를 올바르게 이해하고 다루는 방법에 관한 연구를 수행하며 학교나 기관, 미디어에서 강연자, 자문, 해설자 등으로 활동하고 있다.
역 : 권혜승
서울대학교 수학과를 졸업하고, 스탠퍼드대학교 수학과에서 박사학위를 받았다. 서울대학교 수리과학부에서 학생들을 가르치고 있다. 옮긴 책으로는 『수학 기호의 역사』, 『소수와 리만 가설』, 『내가 사랑한 수학』, 『엄청나게 복잡하고 끔찍하게 재밌는 문제들』 등이 있다. 서울대학교 수학과를 졸업하고, 스탠퍼드대학교 수학과에서 박사학위를 받았다. 서울대학교 수리과학부에서 학생들을 가르치고 있다. 옮긴 책으로는 『수학 기호의 역사』, 『소수와 리만 가설』, 『내가 사랑한 수학』, 『엄청나게 복잡하고 끔찍하게 재밌는 문제들』 등이 있다.
역 : 김영훈
서울대학교 수학과를 졸업하고 예일대학교에서 수학 박사학위를 받았다. 2000~2002년에 스탠퍼드대학교 조교수로 재직했고, 2002년부터 서울대학교 수리과학부 교수로 재직 중이다. 대한수학회 논문상, 한국과학기술한림원 젊은과학자상, 한국연구재단 이달의 과학기술자상, 대한수학회 디아이 수학자상 등을 수상했다. 저서로 『양자 정보 이론』(공저)이 있다. 서울대학교 수학과를 졸업하고 예일대학교에서 수학 박사학위를 받았다. 2000~2002년에 스탠퍼드대학교 조교수로 재직했고, 2002년부터 서울대학교 수리과학부 교수로 재직 중이다. 대한수학회 논문상, 한국과학기술한림원 젊은과학자상, 한국연구재단 이달의 과학기술자상, 대한수학회 디아이 수학자상 등을 수상했다. 저서로 『양자 정보 이론』(공저)이 있다.

출판사 리뷰

넘쳐나는 정보 속 거짓과 우연을 피해
현명한 선택을 이끄는 통계적 사고의 힘


2015년, WHO에서 햄, 소시지 같은 가공육이 담배와 석면이 속한 ‘1군 발암물질’에 해당하며, 매일 50그램의 가공육을 먹으면 장암 발병률이 18% 높아질 수 있다고 밝혀 전 세계를 충격에 빠뜨렸다. 그렇다면 거의 다섯 중 하나가 암에 걸린단 말인가?
반응은 즉각적이었다. 당장 마트에서 햄이나 소시지 매출이 눈에 띄게 줄었다. 학교 급식 식단에서 햄이나 소시지 등의 가공육을 아예 퇴출시켜야 한다는 목소리가 높아졌다. 햄버거 등의 외식업계는 급감하는 소비에 타격을 입었다.
알고 보니 이 18%라는 무시무시한 숫자가 진정 의미하는 바는 상대적인 증가율이었다. 영국의 경우 장암에 걸리는 사람은 통상 100명 중 6명꼴이다. 여기에 18%라는 상대적인 증가율을 적용하면 이 6명은 7명이 된다. 즉 실제 암에 걸리는 사람은 고작 1명 증가한다.
『숫자에 약한 사람들을 위한 통계학 수업』은 일상에서 만나는 숫자들을 합리적으로 의심하고 참과 거짓, 우연과 필연을 구별해내는 법을 알려준다. 저자 데이비드 스피겔할터(David Spiegelhalter)는 케임브리지대학교 통계학 교수와 왕립통계학회 회장을 역임한 세계적인 통계학자다. 그는 복잡한 수학을 사용하지 않으면서도 상대위험도와 절대위험도, 상관관계와 인과관계, 대중의 지혜, 평균으로의 회귀 같은 통계학의 핵심 개념을 놀랍도록 쉽고 명쾌하게 설명한다.
우리는 이미 거의 모든 것을 통계로 말하고 생각한다. 이 책을 통해 독자들은 빅데이터 시대에 필요한 실용적이고 생산적인 통계적 역량을 쌓을 수 있다.

통계는 우리가 당면한 문제에 관해 명확성과 통찰력을 가져다주지만, 어떤 의견을 조장하거나 단순히 관심을 끌기 위해 오용되기도 한다. 따라서 어떤 통계적 주장이 믿을 만한지 판단하는 능력이 현대 사회에서 점점 중요해지고 있다. 이 책이 일상에서 맞닥뜨리는 숫자들에 관해 질문을 던질 수 있는 힘을 주길 바란다. (22쪽)

수포자도 얼마든지 읽을 수 있다!
쉽게 배우고 제대로 써먹는 통계학 공부


최근에 통계가 한국 사회를 뜨겁게 달구고 있다. 정부에서 발표한 고용, 소득, 부동산 관련 경제 지수를 두고 그 근거를 둘러싼 논쟁이 끊이지 않고 있다. 또 이번 장마에 기상 예측이 크게 빗나가면서 비판 여론이 거세지자 기상청이 해명에 진땀을 빼고 있다.
사람들이 통계에 이토록 예민한 이유는 그만큼 일상의 의사결정에 통계적 근거를 광범위하게 활용하기 때문이다. 우리는 일기예보를 보고 우산을 챙길지 말지 결정한다. 어떤 식당에 가고 어떤 영화를 볼지를 결정할 때는 포털이 제공하는 사용자 평점을 참고한다. 그 밖에 여론조사 결과는 투표에, 경제 지수는 투자 등의 가계 운용에 영향을 미친다.
이런 숫자들을 해석하고 통계적 결론들을 비판적으로 분석하는 능력을 데이터 문해력(data literacy)이라고 한다. 특히 빅데이터 시대에 데이터가 커지고 복잡해짐에 따라 어떤 증거가 실제로 얼마나 가치 있는지 판단하는 것이 무엇보다 중요해졌다.
저자는 데이터 문해력을 키우기 위해서는 수학 문제를 풀기 위한 통계학이 아니라, 실세계의 문제를 해결하기 위한 통계학을 배워야 한다고 주장한다. 이 책은 48가지의 흥미로운 질문들을 통해 데이터로부터 진정한 세상을 읽어내는 지적 여정으로 독자들을 이끈다. 그중 몇 가지를 요약해 소개하면 다음과 같다.

√ 통상적인 사망자 수보다 몇 명이나 더 죽어야 연쇄살인을 알 수 있을까?
해럴드 시프먼(Harold Shipman)은 영국에서 가장 많은 사람을 살해한 범죄자다. 가정의인 그는 1975~1998년에 자신의 환자 중 적어도 215명에게 과다한 양의 진정제를 주사해 죽음에 이르게 했다. 유가족들은 그가 그렇게 오랫동안 아무 의심도 받지 않고 범죄를 저질렀음에 경악했다. 조사팀은 통계적 모니터링이 이루어졌다면 1984년에 유의미한 과잉 사망의 증거를 발견했을 것이고 만약 그때 시프먼을 신고했더라면 약 175명을 구할 수 있었을 거라고 결론 내렸다.

√ 기도는 환자의 회복에 도움이 될까?
연구자들은 심장 수술을 받은 1800명의 환자들을 세 그룹으로 나누었다. 첫 번째 그룹은 기도를 받았으나 그 사실을 몰랐다. 두 번째 그룹은 기도를 받지 않았고 마찬가지로 그 사실을 몰랐다. 세 번째 그룹은 기도를 받았고 그 사실을 알았다. 실험 결과 기도를 받은 그룹과 그렇지 않은 그룹 간 의미 있는 차이는 없었다. 하지만 세 번째 그룹에서는 합병증에 시달리는 환자가 약간 증가했다. 한 연구자는 이렇게 말했다. “환자들은 기도를 받아야 할 만큼 내가 엄청 아픈가, 하고 의아해하면서 불안해했던 건지 모른다.”

√ 교통사고가 줄어든 것은 정말로 과속 단속 카메라 덕분일까?
과속 단속 카메라가 설치된 이후에 사고율이 내려가면, 사람들은 카메라 덕분이라고 생각한다. 하지만 사고율은 어쨌거나 내려가지 않았을까? 연구자들은 과속 단속 카메라의 진정한 설치 효과를 알아내기 위해 카메라를 무작위로 배치했다. 그 결과, 카메라 설치 효과 중 약 3분의 2는 평균으로의 회귀 때문으로 추정되었다. 다시 말해, 연이은 행운이나 불운은 영원히 계속되지 않으며, 결국 사태는 다시 잦아들기 마련이다.

√ 정확도가 90%인 암 검사 결과 양성인 사람이 실제 암에 걸렸을 확률은?
검사를 받은 사람이 1000명이고 그중 1%인 10명이 실제 암에 걸렸다고 가정하자. 그 10명 중 9명(90%)은 양성 판정을 받는다. 한편, 암이 없는 990명 중 99명(10%)이 잘못된 양성 판정을 받는다. 따라서 양성 판정자가 실제 암에 걸렸을 확률은 9/108, 약 8%에 불과하다. 조건부확률에 관한 이 연습문제는 직관에 반한다. 검사의 정확도가 90%임에도, 양성 판정자 대다수가 사실 암에 걸리지 않은 것이다. 우리는 암에 걸렸을 때 검사 결과가 양성일 확률과 양성 결과가 나왔을 때 암에 걸렸을 확률을 구별해야 한다.

우리 삶을 지배하는 알고리즘은 어떻게 만들어질까?
데이터과학과 인공지능을 위한 교양으로서의 통계학


프랜시스 서머턴은 영국 사람으로 아내와 어린 딸을 영국에 남겨둔 채 미국에 가서 돈을 벌어올 요량으로 8파운드 1실링짜리 타이태닉호 삼등석 티켓을 샀다. 한편, 칼 달은 45세 노르웨이 가구공으로 서머턴과 같은 운임을 내고 홀로 배에 올랐다. 그들은 비슷하게 가난했고 또 절박했지만 1912년 4월 14일 밤에 두 사람의 운명이 갈렸다. 서머턴은 차가운 바다 밑으로 가라앉았지만 달은 15번 구명보트에 가까스로 기어올랐다.
서머턴은 단지 운이 나빴던 걸까? 아니면 실제로 생존 가능성이 희박했던 걸까? 그저 직감에 따라 그가 남자였고 삼등석에 탔다는 이유로 생존할 수 없었을 거라 단정할 수도 있다. 하지만 호칭, 성별, 나이, 티켓 가격 등의 데이터를 활용해 타이태닉 승객의 생존 여부에 대한 다양한 예측 알고리즘을 설계하면 우리는 보다 구체적인 생존율을 구할 수 있다.
오늘날 우리는 실시간 교통 정보를 수집해 최적 경로를 안내하고 평소 온라인 쇼핑 내역을 바탕으로 맞춤 광고를 제공하는 등의 다양한 알고리즘에 둘러싸여 있다. 뿐만 아니라 앞으로 빅데이터를 활용한 데이터과학이 발전할수록 의료, 금융, 치안 같은 분야에서 알고리즘에 대한 의존도는 더욱 높아질 것이다.
따라서 전문가가 아니더라도 알고리즘의 구조와 파악하고 그 한계를 명확하게 이해할 필요가 있다. 이 책은 알고리즘의 근간이 되는 회귀, 과대적합, 교차검증, 베이즈 추론 등의 통계학 이론들을 알기 쉽게 설명해준다. 처음 통계학을 공부하는 초심자뿐 아니라 데이터과학과 인공지능을 위한 교양으로서의 통계학을 배우려는 사람에게 이 책은 좋은 길잡이가 되어줄 것이다.

통계학의 고수처럼 생각하는 10가지 방법

마지막으로 현명한 통계학의 고수가 되고자 하는 이들에게 저자가 제안하는 10가지 방법을 소개한다.

1. 통계적 방법은 데이터가 과학적 질문에 답하게 해야 한다. 특정 기법에 초점을 두기보다 왜 이것을 하는지를 질문하자.
2. 신호는 항상 잡음과 함께 나타난다. 그 두 가지를 구분하려는 노력이 통계학을 흥미롭게 만든다. 변동성은 피할 수 없고, 확률 모형은 추상적 개념으로 유용하다.
3. 미리, 정말로 미리 계획하라. 확증적 연구에선 연구자의 자유도를 피하기 위해 사전 설명서를 사용하자.
4. 데이터의 질에 신경 써라. 모든 것은 데이터에 달려 있다.
5. 통계 분석은 계산 그 이상이다. 이유를 알지 못한 채, 그저 데이터를 공식에 집어넣거나 소프트웨어를 실행하는 건 바람직하지 않다.
6. 단순함을 유지하라. 중요한 전달은 가능한 기초적이어야 한다. 괜히 복잡한 모형화로 기량을 뽐내지 말자.
7. 변동성 평가를 제공하라. 오차범위가 일반적으로 주장되는 것보다 크다는 경고도 함께.
8. 가정을 점검하라. 그리고 이것이 언제 가능하지 않았는지 밝히자.
9. 가능하다면, 재현하라! 또는 다른 사람들이 그렇게 하도록 권장하자.
10. 분석이 재생산될 수 있게 만들어라. 다른 사람들이 당신의 데이터와 코드를 얻을 수 있어야 한다.

통계학은 우리 삶 전반에서 중요한 역할을 하고 있으며, 오늘날 더 많은 데이터를 이용할 수 있게 됨에 따라 꾸준히 변화하고 있다. 그것은 사회에 영향을 미칠 뿐만 아니라 개인에게도 영향을 미친다. 이 책을 준비하면서 통계학이 내 삶을 얼마나 풍요롭게 만들었는지 깨닫게 된 것처럼 당신도 그러길 바란다. 당장 지금이 아니더라도 언젠가 미래에.(418쪽)

“이 책에 너무 충격을 받았다. 석박사 과정에서 배워온 통계보다 이 책에서 더 제대로 배운 것 같다.” _블로거 리뷰

모든 정치인, 언론인, 의료진 등 모든 사람의 필독서 _《파퓰러 사이언스》

데이터를 통해 세상을 더 잘 이해하는 방법을 명확하게 알려준다. _《네이처》

가짜 뉴스와 조잡한 사고에 대한 훌륭한 교정 장치 _《커커스 리뷰》

종이책 회원 리뷰 (5건)

구매 숫자에 약한 사람들을 위한 통계학 수업
내용 평점4점   편집/디자인 평점5점 | j****p | 2022.07.08

빅데이터, 머신러닝, 딥러닝, 인공지능 ....  데이터 관련 새로운 용어들이 쉴새없이 나오지만 결국 중요한것은 펀더멘탈인거 같다. 통계학이라 하면 일반인들은 전혀 상관 없을거 같지만 점점 일상에 스며든다. 우리가 모르는 새에 우리는 통계학을 사용하며 반대로 지배 당하기도 한다. 이렇게 우리 일상에 깊이 파고든 통계학에 대해서 쉽고 재밌게 설명한 책이 이 책이 아닐까 한다. 상식 정도로 읽어보면 좋을 거 같다

이 리뷰가 도움이 되었나요? 접어보기
통계학 '잘알못'에서 '잘알'로 거듭나기
내용 평점5점   편집/디자인 평점5점 | YES마니아 : 로얄 로* | 2021.02.14

숫자에 약한 사람들을 위한 통계학 수업>, 데이비드 스피겔할터 지음, 권혜승/김영훈 옮김, 웅진지식하우스, 2020

 

호랑이는 죽어서 가죽을 남기고, 사람은 죽어서 이름을 남기는’ 시대에서 ‘사람은 사는 동안 데이터 흔적을 남기는’ 시대에 살고 있다. 온라인 상에서의 활동은 물론 오프라인의 생활동선까지 데이터로 남는다. 대중교통 이용 동선과 무엇을 먹고, 마시고, 어디에서 무엇을 사는지도 데이터로 남는다. 온라인 상에서 클릭한 광고와 SNS에서 남긴 ‘좋아요’와 ‘댓글’도 데이터로 남아 나의 취향을 파악해 쇼핑을 제안하기도 한다.

 

빅데이터, AI, 5G 기술의 발달로 최근 각광을 받고 있는 데이터 과학 분야는 우리가 남긴 어마어마한 데이터를 바탕으로 우리의 행동을 빠르고 비교적 높은 확률로 예측할 수 있게 해준다. 데이터 과학 시대에는 데이터를 다루는 능력도 필요하지만, 데이터를 이해하는 능력도 반드시 필요하다고 한다.

 

숫자에 약한 사람들을 위한 통계학 수업>도 현대 사회에 꼭 필요한 능력으로 데이터 문해력을 꼽고, 통계적 방법으로 문제를 해결하는 PPDAC모형을 소개하고 있다. 저자는 일상에서 마주하는 통계를 통해 더 많은 지식을 얻고 싶은 일반인을 위해 통계학 입문서로 이 책을 집필했다고 한다.

 

복잡한 수학적 풀이과정보다는 호기심을 자극하는 수수께끼 같은 질문의 답을 찾아는 과정을 통해 통계적 기법을 알려준다. 가령’ 타이타닉에서 가장 운이 좋은 생존자는 누구였을까?’, ‘난소암 검사는 효과가 있는가”, ‘유방암 수술 이후 보조 치료를 추가로 받았을 때 몇 퍼센트의 생존율 향상을 기대해도 좋을까?, ‘과속 단속 카메라가 교통사고를 감소시키는가?’와 같은 질문이다.

 

좋은 데이터 시각화 자료의 4가지 특징
1. 믿을 만한 정보를 담고 있다.
2. 유의미한 패턴이 뚜렷이 나타나도록 디자인되었다.
3. 겉모습이 관심을 끌면서도, 정직하고 명확하고 통찰력 있게 데이터를 전달한다.
4. 필요하다면 추가적인 탐색이 가능하다.(78쪽)

 

데이터 전달의 첫 번째 규칙은 입을 다무는 것이다.
그래야 전달의 대상자인 당신의 청중(정치인이든 전문가이든
일반인이든)에 대해 알 수 있다.
우리는 그들의 불가피한 한계와 오해를 이해해야 하며,
현학적이고 싶은 마음, 똑똑해 보이고 싶은 마음,
세세한 부분까지 설명해주고 싶은 마음과 맞서 싸워야 한다.
전달의 두 번째 규칙은 당신이 무엇을 이루고자 하는지 아는 것이다.(81쪽)

 

저자는 알고리즘의 원리에 대해서도 설명하고, 알고리즘이 갖는 잠재적 문제들도 지적한다.알고리즘이 수행하는 작업은 크게 ‘분류’와 ‘예측’으로 나뉘는데 분류는 식별 또는 지도학습이라고도 하며, ‘우리가 어떤 종류의 상황에 직면하고 있는지’ 알려주는 것이고, 예측은 앞으로 ‘무슨 일이 일어날지’ 알려준다고 한다. 다만 알고리즘에는 잠재적 문제들도 있음을 지적한다. 알고리즘 규칙이 변화에 매우 민감해 예측이 빗나갈 가능성이 있고, 통계적 변동성을 고려하지 못하고, 내재적 편향을 가질 수 있으며, 투명성이 부족한 문제가 대표적이라 한다.

 

이 책은 적은 표본, 구조적 편향, 일반화의 어려움 같은 문제들을 강조한다.
알고리즘의 문제점을 살펴보면,
오늘날 많은 데이터 덕분에 표본 크기에 관한 걱정은 줄어들었지만,
다른 문제들이 더 나빠지는 경향이 있었다.
게다가 우리는 알고리즘의 추론 과정을 설명하라는 새로운 문제에 부딪혔다.
지나치게 많은 데이터는 건실하고 책임감 있는
결론을 생산하는 데 있어 어려움을 증가시킨다.
알고리즘을 만들 때 겸손함은 매우 중요한 덕목 중 하나다.(208쪽)

 

과학적 발표에서 ‘유의미한 것’과 ‘유의미하지 않은 것’을 나누는 문턱값으로 사용되고, 심지어 ‘유의미한 것’이 증명된 것으로 간주하는 P값에 대한 오해도 바로잡도록 한다. P값을 넘지 않았다는 것은 ‘영가설(귀무가설)이 참이라는 것이 아니라 영가설과 양립할 수 있다는 뜻’이라고 한다. P값에 대한 미국통계학회가 합의한 6가지 원칙도 소개한다.

 

이 단순한 이분법은 ‘유의미하지 않다’를 잘못 해석할 수 있다.
유의미하지 않은 P값은 데이터가 영가설과 양립할 수 있다는 뜻이지
영가설이 참이라는 뜻은 아니다.
어떤 범죄자가 범죄 현장에 있었다는 직접적 증거가 없다고 해서
그가 결백하다는 뜻은 아닌 것처럼 말이다.(328쪽)

 

P값에 대한 여섯 가지 원칙
1. P값은 데이터가 명시된 통계 모형과 얼마나 양립할 수 없는지를 나타낸다.
2. P값은 가설이 참일 확률 또는 그 데이터가 오로지 무작위적 우연에 의해
만들어졌을 확률을 측정하지 않는다.
3. 과학적 결론과 사업, 정책 결정들은 P값이 특정 문턱값을 넘는지 여부에만 기반해서는 안 된다.
4. 적절한 추론은 완전한 발표와 투명성을 요구한다.
5. P값이나 통계적 유의성은 어떤 영향의 크기나 결과의
중요성을 측정하지 않는다.
6. P값 자체는 어떤 모형이나 가설에 관한 좋은 증거의 척도를 제공하지 못한다.
예를 들어, 0.05에 가까운 P값은 그것만으로는
영가설에 반하는 약한 증거만 제공할 뿐이다.(326~331쪽)

 

숫자에 약한 사람들을 위한 통계학>은 통계에 대한 몰이해와 오용으로 결과가 잘못 해석되고, 과장되어 알려짐으로써 혼란을 초래할 수 있음을 환기시키며, 통계적 주장에 맞닥뜨렸을 때 점검해야 하는 10가지 질문과 통계를 다룰 때의 10가지 규칙을 소개한다. 통계학을 다루는 사람은 물론 데이터 과학 시대를 살고 있는 우리 모두에게 필요한 내용이다. 데이터도 아는 만큼 보이는 것 같다.

 

통계적 주장에 맞닥뜨렸을 때 점검해야 하는 10가지 질문
1. 그 연구는 얼마나 엄밀하게 수행되었는가?(
)
2.
결과에서 통계적 불확실성/신뢰성은 무엇인가?()
3.
요약은 적절한다?()
4.
이야기의 출처는 얼마나 믿을 만한가?()
5.
이야기를 장황하게 늘어놓고 있는가?()
6.
들려주지 않은 것은 무엇인가?()
7.
그 주장이 알려진 것들과 얼마나 잘 들어맞는가?()
8.
보인 것에 대한 설명으로 무엇이 주장되는가?()
9.
그 이야기는 청중과 얼마나 연관 있는가?()
10.
주장된 영향은 중요한가?(405~407쪽)

 

효과적인 통계학 실행을 위한 10가지 규칙
1. 통계적 방법은 데이터가 과학적 질문에 답하게 해야 한다.
특정 기법에 초점을 두기보다 왜 이것을 하는지를 질문하자.
2. 신호는 항상 잡음과 함께 나타난다.
그 두 가지를 구분하려는 노력이 통계학을 흥미롭게 만든다.
변동성은 피할 수 없고, 확률 모형은 추상적 개념으로 유용하다.
3. 미리, 정말로 미리 계획하라.
확증적 연구에선 연구자의 자유도를 피하기 위해 사전 설명서를 사용하자.
4. 데이터의 질에 신경 써라. 모든 것은 데이터에 달려 있다.
5. 통계 분석은 계산 그 이상이다.
이유를 알지 못한 채, 그저 데이터를 공식에 집어넣거나
소프트웨어를 실행하는 건 바람직하지 않다.
6. 단순함을 유지하라.
중요한 전달은 가능한 기초적이어야 한다.
괜한 복잡한 모형화로 기량을 뽐내지 말자.
7. 변동성 평가를 제공하라.
오차범위가 일반적으로 주장되는 것보다 크다는 경고도 함께.
8. 가정을 점검하라. 그리고 이것이 언제 가능하지 않았는지 밝히자.
9. 가능하다면 재현하라. 또는 다른 사람들이 그렇게 하도록 권장하자.
10. 분석이 재생산될 수 있게 만들어라.
다른 사람들이 당신의 데이터와 코드를 얻을 수 있어야 한다.(417~418쪽)

 

* 해당 도서는 출판사로부터 무상으로 제공받았으며, 제 주관에 따라 솔직하게 작성했습니다.

이 리뷰가 도움이 되었나요? 접어보기
파워문화리뷰 《숫자에 약한 사람들을 위한 통계학 수업》 쉽고 재미있는 통계학 입문!
내용 평점4점   편집/디자인 평점4점 | YES마니아 : 로얄 스타블로거 : 블루스타 지* | 2021.01.07

시프먼의 범죄에 대한 통계적 접근은 비극적인 죽음을 맞이한 긴 희생자 목록에서 한 걸음 물러서기를 요구한다. 그 과정에서 삶과 죽음에 관한 개인적이고 고유한 세부 사항들은 건조한 숫자와 그래프로 바뀐다. 처음에는 이것이 냉정하고 비인간적인 것처럼 보일 수 있다. 하지만 통계과학으로 세상을 이해하려면, 일상의 경험은 데이터로 전환되어야 한다. 즉 우리는 사건들을 범주별로 묶고 꼬리표를 달고 측정값을 기록한 뒤 그 분석 결과에 대해 논의해야 한다.     p.11

 

오늘날 우리는 데이터과학의 시대에 살고 있다. 교통 상황, SNS 게시물, 온라인 구매 이력 등 일상에서 수집된 거대한 데이터가 이동 경로 최적화, 맞춤 광고, 구매 추천 서비스 같은 기술에 사용되고 있으니 말이다. 우리는 잡음 속 신호를 감지해내서, 일상생활에서 맞닥뜨리는 선택의 순간에 좋은 결정을 내리길 원한다. 알고리즘은 과거 데이터를 사용해, 그런 문제들을 공략한다. 이렇게 개인의 취향과 관심사마저 수량화되는 빅데이터 시대에 살고 있는 우리에게 통계적 분석과 사고 능력은 읽고 쓰는 능력만큼이나 중요하다.

 

이 책은 세상에서 벌어지는 각종 현상과 사건을 이해하는 데 필요한 통계과학을 설명해준다. 단순히 평균이나 표준편차를 계산하는 것이 아닌, 데이터에서 의미 있는 패턴과 관계를 연구하는 통계학을 실세계의 데이터와 예제를 활용해 보여주고 있어 더욱 흥미롭게 읽을 수 있다. 통계학이 집값 예측부터 질병 추적, 살인 패턴 분석뿐만 아니라 일상의 소소한 호기심까지 해결할 수 있다고 하니 말이다. 특히나 이 책은 기술적 측면보다는 개념적 측면에 더 비중을 두고 있어 인상적이었다. 골치 아픈 수식은 거의 없고, 그나마 몇 개 등장하는 수식도 맨 뒤에 수록되어 있는 용어집에서나 볼 수 있다. 그러니 기술적이지 않은 통계학 입문서를 찾고 있는 학생과 일상에서 맞닥뜨리는 통계에 관해 쉽게 이해하고 싶은 일반인에게도 도움이 될 것이다. 그리고 수포자도 얼마든지 읽을 수 있다는 점 또한 이 책이 가지고 있는 큰 장점이다.

 

 

우리는 이미 정해져 있지만 우리에게는 알려지지 않은 것들에 둘러싸여 있다. 우리는 다음에 받을 카드에 내기를 건다. 또는 스크래치 복권을 산다. 또는 아이의 가능한 성별에 대해 이야기한다. 그 밖에 추리소설을 두고 골머리를 쥐어짜고, 야생에 남은 호랑이의 수에 관해 논쟁하고, 이민자나 실업자 추정값을 듣는다. 이 모든 것은 세상 어딘가에 존재하는 사실이나 수이다. 다만 우리는 그것들이 무엇인지 알지 못한다. 베이즈 방법은, 이런 사실이나 수에 대한 개인적 무지를 나타내기 위해 확률을 사용한다.      p.338

 

베이컨, 햄, 소시지가 담배 같은 발암물질이라는 WHO의 발표는, 암 발병률을 18퍼센트 증가시킨다고 한다. 하지만 이를 실제 사람 수로 환산해보면 100명 중 6명이 7명으로 증가할 뿐이다. 사고 다발 지역에 과속 단속 카메라를 설치한 후에 사고율이 내려가면, 대부분 카메라 덕분이라고 생각한다. 하지만 실제로 카메라의 설치 효과 중 약 3분의 2는 '평균으로의 회귀' 증상 때문인 걸로 밝혀졌다. 그 밖에도 통계는 사람들의 수명에 관한 데이터를 가지고 내가 80살까지 살 가능성을 예측해보기도 하고, 특정 시간과 장소에 비가 올지 안 올지에 대한 예측도 해보고, 자녀의 키가 부모 중 누구와 더 큰 연관성이 있는지를 예측할 수도 있다. 우리는 일기예보를 보고 우산을 챙길지 말지 결정하고, 어떤 식당에 가고 어떤 영화를 볼지를 결정할 때도 사용자 평점을 참고한다. 여론조사 결과는 투표에, 경제 지수는 투자 등의 가계 운용에 영향을 미치기도 하니, 통계란 것이 우리 일상에서 얼마나 많이 활용되고 있는지 알 수 있을 것이다.

 

통상적인 사망자 수보다 몇 명이나 더 죽어야 연쇄살인을 알 수 있을까? 정확도가 90%인 암 검사 결과 양성인 사람이 실제 암에 걸렸을 확률은? 매일 일어나는 살인 사건의 수, 실업률, 사고가 났을 때 승객들의 구체적인 생존율 등등 데이터를 통해 결론을 이끌어 내는 상황들은 너무도 다양했다. 저자는 통계학의 고수처럼 생각하는 10가지 방법을 제안한다. 통계적 방법은 데이터가 과학적 질문에 답하게 해야 한다, 신호는 항상 잡음과 함께 나타난다. 그 두 가지를 구분하려는 노력이 통계학을 흥미롭게 만든다, 데이터의 질에 신경 써라. 모든 것은 데이터에 달려 있다. 등 우리 삶 전반에서 중요한 역할을 하고 있는 통계학을 제대로 활용할 수 있는 팁들이 도움이 될 것이다. 자 너머 세상의 흐름을 올바르게 읽어내는 통계적 사고의 힘이 궁금하다면 이 책을 만나 보자. 일상에서 맞닥뜨리는 숫자들에 관해 질문을 던질 수 있는 데이터 문해력을 길러 줄 테니 말이다.

 

 

*출판사로부터 도서를 제공받아 주관적으로 작성한 리뷰입니다.

2명이 이 리뷰를 추천합니다. 접어보기
  •  종이책 상품상세 페이지에서 더 많은 리뷰를 확인하실 수 있습니다. 바로가기

eBook 회원 리뷰 (1건)

구매 숫자에 약한 사람들을 위한 통계학 수업
내용 평점5점   편집/디자인 평점4점 | YES마니아 : 플래티넘 스타블로거 : 블루스타 햄* | 2021.10.04

분명 대학교 때 통계 관련 수업을 수강한 적이 있는데도 오랫동안 공부를 하지 않다보니 가물가물해서 책을 구매해보았습니다. 제목 그대로 숫자 관련된 언급은 많지 않고 다양한 사례를 들어서 통계학 이론에 대해 설명해주어 이해가 힘들 정도는 아니지만 개인적으로 생각하기에는 통계에 대해 잘 모르는, 초보자가 읽기에 마냥 쉬운 책은 아닌 것 같습니다. 그리고 대여보다는 소장해서 읽는 걸 추천합니다.

이 리뷰가 도움이 되었나요? 접어보기
  •  eBook 상품상세 페이지에서 더 많은 리뷰를 확인하실 수 있습니다. 바로가기

한줄평 (5건)

0/50
맨위로