Please enable JavaScript.
Coggle requires JavaScript to display documents.
숫자가 만만해지는 책(Defending Yourself in a World of Too Many Numbers)/Brain W.…
숫자가 만만해지는 책(Defending Yourself in a World of Too Many Numbers)/Brain W. Kernighan
01 만만하게 시작해보자
추정을 엉성하게하고 수정하라
독립적 추정값이 서로 크게 다르면 둘 중 하나는 틀렸다
보존법칙과 상쇄
미국단위 어림계산
1미터 .. 1야드 + (10퍼센트)
1킬로그램 .. 2파운드 +(10퍼센트)
1리터 .. 1쿼트 + (5퍼센트)
섭씨1도 .. 화씨2도 - (10퍼센트)
02 숫자로 된 정보를 평가하는 법
단위를 체크하라
million 과 billion은 큰 언론사들이 자주 실수하여 보도한다.
뉴스에서 의심해야한다.
접근 노하우
잠재적인 문제를 찾아내는 방법
합리적인 추정치를 산정하는 방법
어림 계산을 쉽게 하는 방법
결론에서 출발하여, 역방향으로 참 또는 거짓을 추론하는 방법
오보를 판별하기 위한 노하우
다양한 팩트를 알 경우 유리하다(데이터는 일관성을 가지는 경향이 있다).
어림 계산은 상쇄에 의해 영향을 덜 미치니 과감히 아래 자리수를 0으로 치환하라.
역방향추론: 결론에서 출발하여 가정과 주어진 데이터를 평가하는 것
독립된 계산이나 출처들 사이에서 일관성을 찾을 수 있어야 한다(어그러짐 확인).
숫자감각으로 의심해 볼 수 있어야 한다.
03 큰 수 앞에서 당황하지 않는 법
다운 스케일링
큰 숫자를 자릿수단위로 적당히 쪼개어 계산(계산 하려는 숫자와 같은 자릿수 단위로 맞추는 것이 핵심)
예: 3조9000억/3억을 39000억/3억으로
큰 수에 대한 시각적 비유가 무조건 유용하지는 않다.
그보다는 비율을 이용한 비유가 더 와닿게 만들 수 있다.
예: 50명당 1 명꼴 이 일렬로 세웠을 때 만리장성만하다보다 나을 수 있다.
그외 조언
항상 접하는 큰 수가 내게 뭘 의미하는지 생각해 볼 것
역방향 추론과 스케일링 업/다운이 모든 숫자 오류를 잡아내지 못 한다는 것 유의
숫자 상식을 늘리면 유용
우주나이: 140만년
지구에서 달까지 38만 킬로미터
지구에서 태양까지 1억 5천만 킬로
광속은 초속 30만 킬로
음속은 초속 340미터
대한민국 인구수
대한민국 국내총생산
04 데이터량 감잡기
대형 접두사 단위
킬로
메가
기가
테라
페타
엑사
제타
요타
거듭제곱을 이용한 과학적 표기법이 매우 유용하니 이용할 것을 권장
05 단위오류 바로잡기
단위(m, mile, ...) 숫자 단위가 틀리는 것보다 더 큰 오류가 발생할 수 있다.
역방향추론(결론에서부터 추론)으로 오류를 찾아낼 수 있다.
예: '모니터 밤에 끄면 88달러 절약'이라는 기사
되짚을 시 하룻밤 모니터 전기세는 88달러
1달로 생각하면 엄청난 비용
전기요금과 모니터 전기사용량을 이용하여 바르게 계산
06 넓이와 부피 차원을 혼동한 예
제곱의 피트와 제곱피트 오류(?)
무슨 문제인지 이해도 안 가고 일어난 적도 없는 것 같다.
대각선과 너비
대각선의 증가율은 너비의 증가율과 다르다
화면크기등 대각선을 이용해 표기하는 제품들은 그 길이가 50% 늘어날 시 너비는 2.25배가 된다
부피
부피의 경우 세제곱이 되면서 차이는 더 커진다.
요점: 도형에 따라 차원이 증가하면서 계산값이 크게 변한다. 상수는 중요하지 않으나, 차원변동은 중요하다.
07 매일 몇 명의 사람들이 이사를 갈까?
리틀의 법칙
각 수치가 일정하게 유지된다는 가정 기반
들어온 것은 반드시 나간다.
어떤 과정을 거치는 다음과 같은 것을 구한다.
사물의 개수
과정에 도착하는 속도
과정을 통과하기까지 소요되는 시간
적용 예시
65세 진입하는 미국 베이비부머의 수는?
가정
미국인은 3억명
work in progress
미국인 수명 75세
processing time
과정
3억/75 = 400만/year
도착속도이자 출발속도
$$4000000/400 * 1.1$$
1년은 대략 360일이므로 10%보정을 위해 1.1 곱함
일관성 이용하기
허용오차
$$ \pm 10 \sim 20 \%$$
독립적 계산과 인용된 값을 대조하여 확인
체계상의 오류가 없으면 대충 맞는다.
독립적 계산
하향식 계산
큰 수를 개별적 항목, 인원으로 쪼개기
상향식 계산
하나의 항목, 인원이 전체에 미치는 영향 검토
예시: 뉴육시민 연간 대중교통 이용건수 1059만 아니라 105억 9000만
하향식
1059만이면 뉴욕시민 1명당 1년에 1번 탐?
105억 9000만이면 연간 1000번정도이므로 대충 맞음
상향식
뉴욕시민이 하루에 2번 대중교통이용한다고 가정
한 명이 1년에 700번 이용하고 전체 뉴육시민은 70억
뉴욕시민 1명이 하루 평균 3번 이용한다고 하면 대략 105억 됨
08 무늬만 그럴듯한 숫자들
의심스러운 숫자
유효자리수 이상의 값으로 표현된 숫자들
이런 숫자들은 0으로 자릿수만 표현하는 것이 합당했다.
계산된 값은 입력값보다 높은 정밀성을 가질 수 없다.
반올림등의 자릿수 정리를 하지 않는다는 것은 그 수치가 유의미하다는 뜻인데.. 이를 무시한 표기가 된다.
예: 정밀 계산이 아닌데, 7732나 12.723 식으로 표현한 것 들
자주 발생하는 경우
단위 환산시
정밀 계산되지 않은 피트값을 환산공식에 넣어서 미터출력값으로 고스란히 적는 경우
온도 환산시
섭씨 1도 차이마다 화씨 1.8도 차이나며 섭씨0도에 화씨가 0도가 아니다
역시 비정밀값을 정밀하게 환산해서 옮겨적기만 하는 경우가 많다.
순위 평가시
불명확한 기준에 제멋대로의 가중치를 매긴다
마음대로 조작가능한 결과를 발표한다
사전상식
유효숫자
근사값을 나타내는 숫자 중 0을 제외한 신뢰할 수 있는 숫자
09 통계의 4가지 거짓말
잘 못된 대표값
08 의 무늬만 그럴듯한 숫자들
평균과 중앙값, 최빈값
측정값이 균등하게 분포시 산술평균
두드러진 아웃라이어 존재시
중앙값
최빈값
샘플편향
설문조사응답은 성공적인 사람으로 편향가능성 크다.
생존자 편향(표본으로부터의 오류)
대표성 없는 표본을 이용하여, 일반론을 펼치는 오류
데이터의 누락 발생
상관관계와 인과관계
두 개의 값이 비례적으로 변화 시 하나가 다른 하나를 초래한다고 무조건 볼 수는 없다
보도자료에서 내용을 비약할 때 많이 사용된다
참조 웹사이트
tylervigen.com/spurious-correlations
10 그래프의 4가지 속임수
Y축 생략
0에서 시작하지 않는 선정적인 그래프
선정적인 그래프는 추세를 명확하게 보여주는 장점은 있으나..
추세를 과장하여 왜곡한다.
생략선은 일종의 추세변이를 나타내기 위한 절충안
생략선이 명확하지 않다면 수상한 자료
X축 생략
Y축과 비슷한 기법이나 더 위험할 수 있다.
짜집기를 하여 자료조작에 사용된다.
원그래프
배반적 선택지 사이의 분포를 나타내는데 사용된다
투시도(perspective view)스타일시 전면이 더 커보여 왜곡에 유리하다
총합 100%를 넘어서는 값의 원그래프가 보인다면 잘 못 된 그래프
1차원 그림착시 효과
데이터 값을 폰트 크기, 도식화한 그림 또는 도형의 면적이나 부피로 과장한다.
11 출처를 의심하라
누가 광고비를 지불했을까
의도를 갖고 있는 단체의 경우, 목적에 맞게 정보를 왜곡하고(범위값 중 최대나 최소 중 유리한 것을 선택), 유리한 계산기법을 이용한다.
충격적인 숫자는 더욱 주의
원문을 베끼는 과정에서의 실수를 가장해서 왜곡하기도 한다
예시: (원문) 1950년 이후 두 배가 되었다
(보도문) 1950년 이후 매년 두 배씩 증가해왔다.
nurturing idea
open contest that detects mistaken numeric data at broadcasted media
12 복잡한 계산이 쉬워지는 간편셈(일상에서 이용하기 위한)
먼저 말이 되는지 살펴보라
자릿수 확인 및 백분율
어림계산 적극활용
만약 자릿수 마침에서 값이 크게 변동되면 최종값에 %로 가감을 조종한다.
연간비율과 평생비율
신규인지 누적식인지 확인하라
자주 혼동되어 오보되거나 계산이 틀린다.
2의 거듭제곱과 10의 거듭제곱 간편계산법
$$ 2^{10} = 1024 \approx 10^3 = 1000 $$
$$ 2^{n*10} = 10^{n*3} $$
오차율은 값이 커지며 늘어나기는 한다.
복리와 72의 법칙
72의 법칙
1단위 기간당 x퍼센트의 복리로 늘어나면 두 배가 되기까지 걸리는 시간은
$$ 72/x $$
다만 이자율이 과도하게 높으면 법칙이 잘 안 맞는다
복리
동일한 시간간격을 두고 일정한 백분율만큼 계속 증식
정확한 의미는 복리적 증식
요즘은 정량적의미보다는 빠른 증가율에 대한 수식어로 쓰인다.
영원히 증가율을 유지 할 수는 없다.
13 추정이 만만해지는 페르미 문제
수를 자신과 관련된 수로 나름의 방식으로 추정하는 것이 핵심
예: 미국인들은 매년 500억개의 플라스틱 물병을 버린다. 그 플라스틱 병을 만들기 위해 200억 배럴의 석유가 사용되며 2500만톤의 온실가스가 대기로 방출된다.
나는 일주일에 몇 병 사용?
평균적으로 1병(?)
1년이면 50병
이 기준으로 미국확장시 1년 150억병
사이 값이 아닐까?
산술 평균
600억
기하평균
두수 곱 제곱근
1 more item...
양 극단이 불확실할 때 사용하기 좋다
만약 하루 1병
미국 확장시 1년 1000억
약 길이 10피트, 넓은 부분의 직경 24인치, 구멍 직경 15인치, 대포알의 직경 6인치인 대포의 무게는?
상식
주철 약 세제곱피트당 약 450파운드
주철 밀도 $$ 7500kg/m^3 $$
미터법으로 환산시 길이 3m, 가로 및 세로 각각 1/3 m
추정부피 1/3 m^3
밀도를 이용하여 계산시 약 2500kg
페르미 문제: 충분한 정보가 없는 양에 대해 추정
예시들
통상적인 간격 유지 가정
주어진 공간에 얼마나 많은 사람?
여섯그루의 큰 참나무와 단풍나무에서 매년 갈퀴로 긁어내야되는 나뭇잎 장수?
당신이 현재 있는 방을 어떤 디스크로 채울시 저장 할 수 있는 데이터양은?
당신의 체표면 면적은?
현금수소용 무장차에 들어갈 수 있는 현금 액수는?
스쿨버스에 얼마나 많은 공을 넣을 수 있을까?
구글 스트리트뷰에 나오는 사진을 모두 촬영하기 위해 구글은 몇 km를 운영했을까?
얼마나 많은 휘발유를 이에 소모했을까?
얼마나 오랫동안 조사했을까?
얼마의 데이터를 사용했을까?
이에 소모된 비용은 얼마일까?
14 당신을 지키는 법
경고신호를 포착하라
너무 크거나 너무 작은 수가 보인다면 이를 나 개인의 범위로 축소해서 결부해보라
과도한 정밀성
유효숫자가 많이 존재하지 않을 자료에 과도하게 정밀한 표기를 이용할 시 불순한 의도 주의
계산오류 주의
계산 시작 전 자릿수를 먼저 생각하라
계산 전 추정하라
오차율 10퍼센트 내외로
단위오류, 차원오류 유의
출처를 살펴라
데이터 입수과정 의심
계산과정의심
상식을 넗히고, 간편셈을 익혀라
기초 간편셈
리틀의 법칙
72의 법칙
복리계산을 위한 2의 거듭제곱수
추천 상식
사는 나라, 주, 도시, 마을의 인구 근사값 및 면적값
물리학 상수 & 전환율
항상 연습할 것
recommended book
대럴허프
새빨간 거짓말 통계
조엘 베스트
통계라는 이름의 거짓말
통계라는 이름의 더 많은 거짓말
통계의 얼룩빼기
프루피니스(proofiness-2010)
존 앨런 파울로스
숫자에 약한 사람들을 위한 우아한 생존 메뉴얼
한 수학자의 신문읽기(1996)
로렌스 와인스타인 & 존 애덤
페르미 추정 관련내용
추정 2.0
추정(2008)
랜들 먼로
위험한 과학책
author's website
millionsbillionszillions.com