2020.02.17 – 통계의 거짓이야기

통계는 금융섭취 먹으면 절대적 피할 수 분야이다니다. 아니, 금융과 상관없이 보통 우리 일상생활에 댁무 깊게 들어와 우리의 생각을 흔드는 학문이죠. 통계가 어떻게 거짓예기을 할 수 있는지는 이미 잘 알고 있음니다. 수많은 자료와 애널리스트들의 리포트, 경제학자들의 책을 읽으면서 계획했든 계획하지 않았든 숫자들을 의심하며 봐야 하죠. 보통 이 책은 제목이 눈에 띄어 고른 것이다니다. 읽고 보니 비전공자가 읽기에 적합한, 따라서 통계에 대한 수리적 분석은 하과인도 없는 책이다니다. 책의 목적도 언론, 혹은 야당의 통계발표, 보험사과인 증권사가 제시하는 숫자들로부터 일반 시민들이 않도록 교육하기 위한 목적이다니다. 책은 2011년 독일에서 애초 출판되었고, 국한에서는 2016년에 번역되어 출판되었네요. 요즘에 출판사 명을 바꿔서 재발매 했과인봐요. 따라서 책에서 제시하는 자료들이 조금 올드Old하다는 문제­가 있음니다.

>

우리 딸 고등학교 입학을 앞두고 고 3까지 수학의 전체 과정을 보니 ‘확률과 통계’가 별도로 들어가 있기는 하더군요. ‘확률과 통계가 과연 수학일까?’가 느낌되어 본 적 없으신가요? 우리가 그럭저럭 수학에서 말하는 정의는 증명이 된 명제, 즉, 동일한 상황에서 동일한 결론이 도출되는 것이다에도 불구하고, 확률은 그 단어에서 기위 불확실성을 안고 있으며, 통계는 대체로 그렇지만 개별적으로는 충분히 아닐 수 있다는 것을 포함한 개념인데 이를 수학이라 할 수 있본인요? ​몇 년 전 재미본인게 읽은 <원더랜드>(스티브 존슨, 2017.02.08, 프런티어)에 본인오는 확률과 통계에 대한 스토리는 이렇습니다. 과거부터 주사위 또한는 이와 유사한 것들이 있었고, 도박도 존재해 왔습니다. 그럼에도 유클리드 기하학과 피타고라스의 정리를 만들었던 그리스본인, 뛰어난 건축공학적 역량을 보여준 로마도 당대의 수많은 유명한 수학자들이 통계학을 만들어 내지 못했는데, 그 이유는 도박에 개입된 이다의성 때문이었습니다. 주사위본인 이와 유사한 것들이 규격이 일치하지 않았고, 이다의적인 요소로 숫자가 본인오기 때문에 (그게 또한 도박의 묘미이기도 한다.) 확률이 개입될 여지가 없었죠. 그러본인 13세기 말 툴루즈에 있는 주사위 제조조합은 도박에서 협잡꾼들의 농간을 막기 위해 주사위 제조에 관한 규정(무게한가운데, 숫자 순서, 모서리 등등)을 정한다. 그러면서 모든 것이 달라집니다. 드디어 16세기 들어서 카르다노라는 도박을 좋아하는 의학도가 “운이 작용하는 게이다들에 관한 책”을 통해 주사위 게이다을 분석하는 수식을 만들어 냅니다. 확률의 덧셈과 곱셈도 언급하고 말이죠. 그 파스칼과 페르마가 서신을 교환하며 통계학을 발전시켜 본인상회 되죠. 이를 바탕으로 에드워드 핼리(핼리해성의 그 핼리이다니다)가 이 개념을 이용해 영국인의 평균사망률을 계산하고, 또한 네덜란드에서는 호이겐스 형제가 새로 잉태된 태아의 자연수명을 산출하죠. 그 이후 금융과 과학, 의학, 사회학 등 거짓없이거의­ 모든 분야에서 통계를 빼고서는 스토리할 수 없는 세상으로 변했습니다. 스토리가 샛길로 빠졌네요. 다시 이 책으로 돌아와서… 어쨌거본인 이 책에서는 그 통계가 거짓말을 한다는 거죠. 사실은 통계가 거짓말을 한다기보다 통계를 제시하는 사람이 주장하는 바를 강조하기 위해, 그리하여 정치적 목적을 위해 통계를 비튼다는 것이 더 맞는 말이다니다. 숫자가 어떻게 거짓말을 합니까. 사람이 이를 이용해서 속이는 거죠. ​1. 음양이론과 동전의 양면 : 좋은 것만 보여주고 부정적인 것은 숨기는 것 – 2,200명의 정규직 교사를 신규채용했습니다고 말하면서 2,500명의 교사가 퇴직한 것은 언급하지 않음- 국민연금 지급액이 1.1퍼센트 상승했습니다고 하면서 물가상승률이 2.6퍼센트인 것을 빼고 말함- 보험사가 새롭게 기기 도입으로 치료비가 올랐다고(따라서 보험료를 올려야 한다고) 말하면서 치료기간이 짧아진 것을 숨김- 음주운전 단속으로 지난 주 500명 중 10명 적발, 이번 주 15명 적발 → 50퍼센트가 거의 매일어난 음주운전(언론) Vs. 비음주 운전율 98퍼센트에서 97퍼센트로 소폭 감소 2. 숫자보다 더 많은 거짓말을 하는 그림 : 보여주고 싶은 것만 보여주기 – Y축을 조작: 허리를 잘라서 변화가 심한 것처럼 보이게 하기

>

>

– X축 단축: 비교 기간을 보여주고 싶은 구간만에 보여줌

>

– 시점선택: 특정 시점의 자료만 연결하여 사실을 반전

>

​3. 인과관계의 함정 : 원인과 결과 담집기, 상관관계를 인과관계로 연결하고 싶은 심리 – 전염병으로 사망한 사람에게는 이가 없으자신, 유가족에게는 이가 득실 → 이가 없으면 열병에 걸린다 : 사실은 열병에 걸려 체온이 올라가면 이가 도망감 – 출동한 소방대원수가 많을수록 피해액의 규모도 항상­그랬듯어난다: 대형화재일수록 많은 소방대원이 출동함 – 방사선 치료 기간이 길어질수록 암의 완치율이 오전아진다: 종양이 클수록 치료기간이 길어지고 완치율이 오전아짐 – 배경변수(제3의 변수) 때때로, 성별: 신발 사이즈가 크면 평균 연봉이 상당희높다? 사실은 성별 및 자신이에 차이 – 1990년대 초 독일 내 외국 이민자에 의한 범죄율이 상당희높다? 이민자는 자신이가 젊고, 대체로 남자며, 사회적 지위가 오전고, 인종차별을 받으며, 대도시에 산다. (이민자라서 높은 게 아니고 일반적인 범죄율이 높은 조건들에 따름) ​4. 절대적 수치와 상대적 수치 – 상대적 수치의 거짓예기 : 절대적 수치가 적을 때 상대적 수치는 과장됨☞ A약물이 효능이 뛰어자신지만 B약물에 비해 부작용 위험이 100%가 상당희높다? 7,000명 중 2명 Vs. 1명이라면? ☞ 50세 이상 여성 중 매년 유방암 조영술 검사를 받은 이들의 사망률이 그렇지 않은 이들에 비해 25%자신 오전다? 10년 이내 유방암으로 사망하는 여성의 비율이 1,000명 중 4명 Vs. 3명? – 절대적 수치의 거짓예기 ☞ “노르트라인 베스트예기렌 주는 신규로 교사를 1,000명이자신 채용했음니다.”: 그러자신 그 주의 학교 수는 공립학교만 7,000개가 넘는다. ☞ “독일이 세계 최대 수출국의 지위를 회복했읍니다!”: 1인당 수출액 기준으로는 세계 16위. (싱가폴이자신 홍콩 처럼 인구가 작은 자신라는 1인당 숫자로 부풀림)☞ “2008년도의 실업자 수가 대공황 때와 유사한 수준까지 치솟았다”: 그 사이 독일은 통일되었고, 인구도 15백만 명이 항상­그랬듯었으며, 여성의 취업률이 심히 높아짐 → 절대적 수치와 상대적 수치를 다같이 제시해야 함. – 때때로이 흐름에 따라 복지비용이 증가? 그 기간 동안 GDP도 증가했고, 휴가에 쓰는 돈도 증가했sound. 5. 백분율이 지닌 무소불위의 힘 : 기준에 따라 달라지는 백분율 (백분율의 기준, 모수, 응답률 등 기준에 사고을 품는 사람은 극소수) – 총선에서 ‘공수표 정당’이 40%의 지지율을 획득? 투표율이 70%면 28%의 지지? 미투표자 유권자는 모드 유권자 수에 포함되기를 거부했으니 제외하는 게 정당? – 2008년 여름 미 조지 W. 부시 대통령은 아매리카의 온실가스 배출량을 2050년까지 50% 절감: 언제 대비? – 2006년 원자력 에그대지가 모드 에그대지 생산량에서 차지하는 비율이 독일이 31%, 프랑스가 78% (CEA, 프랑스 원자력에그대지 위원회) ☞ CEA는 원자력 에그대지의 필요성을 설득하는 기관 ☞ 실제 독일의 에그대지 중 원자력의 비중은 13%. 31%라고 예기해야 원자력이 없으면 큰일 날 것 같sound☞ 31%의 출처: 원자력 에그대지 비중 23% ~ 28%. 단, 난방, 이동수단 등 제외. 오로지 전력생산량 기준 – Percent(%)와 Percent 포인트(%p) 차이를 잘 모름 ☞ A정당의 지난 보통선거 지지율 30% → 금년 보통선거 지지율 20%: A당 지지율은 10%p 하락. 지지율 30%를 기준으로 10%밖에 줄어들지 않은 것이 아니라 33%가 등을 돌린 것이다 6. 표본 추출 방식에 따른 오류 : 표본 집단에 따라 달라지는 통계 – 비행기 조종사는 일반인들보다 수명이 짧다? : 1990년 런던타이다즈는 민항기 조종사의 60%가 65세 이전에 사망했읍니다고 보도. 그러자신 1960년대부터 민항기 조종사들이 본격적으로 양산되었으며, 1989년 이전에 누가 죽더라도 대부분 65세 이하였sound. – 국영철도 보다 민영철도의 경영실적이 우어느다? : 민영철도는 돈 되는 구간에 요­즘 설비로 운영하지만 국영철도는 낡은 차량도 유지하고, 돈이 안되는 노선도 복지 차원에서 운영- 2010년 야후의 인터넷 설문: 인터넷 사용량을 물었으자신, 인터넷으로 접속한 사람들한테 물었으니 당연히 단 하루도 인터넷을 포기 못한다는 응답이 90%를 넘sound ​7. 보통선거 결과 예측을 둘러싼 진실 여론연구는 신뢰할 게 못되지만, 보통선거를 앞두고 실시하는 경우 그 결과가 실제 보통선거결과에 영향을 미칩니다. 여론연구기관도 결예기 돈을 받고 서비스를 판매하는 큰기업이라 얼마든지 결탁이 가능하죠. 어느 분야를 불문하고 설문연구의 한가운데은 설문대상이 아니라 설문 의뢰자입니다. 다만, 출구연구의 경우 진실을 예기할 확률이 높고 표본이 100배는 크니 100배는 더 정확할것이다. 그러니 출구연구 결과를 실적으로 포장해서 여론연구기관을 홍보하는 거죠. ​8. 기적 예측의 한계 먼 미래를 예측할수록 적중률이 굉장히 오전음니다. 그러자신 경제학자는 내년을 예측하는 것은 위험하지만 10년 담를 예측하는 것은 위험하지 않죠. 그 자리에 예측한 사람은 없을 테니까요(기억하는 사람이 없거자신, 그 일을 안 하거자신…). 그러므로 자기파괴적 예언은 다 엉터리입니다. 이쪽­에 ‘추세외삽법’은 알아두셔야겠죠. 현 추세가 계속 이어질 것이라 가정하는 것입니다. 내가 매일 운동해서 1달에 몸무게를 1kg을 줄인다면, 1년에 12kg이 줄고, 5년만 지자신면 돌 반지 낄 때의 몸무게가 된다는 식이죠. 장기적 예측과 관련된 통계는 반드시 의심하길 바랍니다. ​9. 통계의 기적 – 윌­로저스 현상 : 특목고에서 하위권에 있던 학생이 일반그래서 가서 그 학교의 평균 이상의 성적을 거둔다면, 원래 다니던 특목고도 평균 성적이 상승하고, 새로 전학 간 일반고도 평균 성적이 상승할것이다. 그 학생이 받던 점수는 똑같아도 예기이죠. – 달라진 것은 아무것도 없지만 모든 것이 괜찮아진다. – 심슨의 역설 : 부분적으로 전부 A가 우어느지만, 모드로 볼 때 B가 정예기오히려 더 우수한 것처럼 보이는 상황입니다. 주로 부분의 표본차이와 확률차이로 발생하는 할것이다. ​10. 역시 다른 수법들 : 간략하게 살펴보는 아홉가지 숫자놀sound – 기간 항상­그랬듯리기 : 모기를 코끼리로 만들기 – 평균값 : 평균이 항상­그랬듯 평균은 아니다. (평균과 중앙값 차이)- 정의 : 구직자, 실업자, 이산화탄소 배출량.. 등 정의에 따라 통계는 달라집니다. – 분할하기: 분할해서 거짓예기 하라. 치과비용을 작게 보이기 위해 치과일반진료와 치과보철치료로 쪼개기 – 순위매기기: 1등, 2등, 3등을 향한 광적인 집착(세계 7대 섬.. 선정을 위해 거액을 씁니다.)- 관심돌리기: 정곡을 피해가는 수치를 제시 (증명하고 싶은 것을 증명할 방법이 없다면 다른 무언가를 증명한 담 두 가지가 같은 것인 척해버리면 된다, 데럴 허프)- 체감 통계: 예전에는 이렇지 않았는데… 사실 예전이 언제인지 명확하지 않고, 물가가 두 배로 뛰었는지, 카트의 크기가 커졌는지(실세 마트들이 카트의 크기를 키운 시기가 있음니다.) 모름 – 목적에 따라 달라지는 인구수: ± 275%. 1900년 경, 중국 어느 지방에서 세금 징수를 위해 인구를 연구 시 2,800만 명이었으자신, 5년 담 대기근으로 구호물자 배분을 위해 인구 연구 시 1억 500만 명이다. – 정확한 수치: 불법 노동시장의 ‘공식적’규모, 암시장의 크기 등 정확히 연구할 방법이 없sound에도 불구하고 정확한 수치를 들이대면 조심해야 할것이다. ​흠.. 정리가 점점 귀찮아지는… 대충 마무리해야겠네요. ​11. 의료보험을 둘러싼 진실 보험공단의 지출은 일반 생활비 지출이 증가하는 수준, GDP 증가율 수준으로 증가할 뿐이었답니다. 고령인구가 항상­그랬듯어날수록 재정이 궁핍해진다는 예기은 사실일까요? ​12. 연금보험을 둘러싼 진실 연금보험사가 제시하는 장기 수익률 믿으면 큰일 납니다. 특히 비현실적 장기 수익률을 제시한다면 그게 거짓없이 보장되는 건지, 단지 예시인지 잘 봐야죠. ​13. 실업급여를 둘러싼 진실 빈곤층을 악의적으로 모함하는 정치가자신 가난한 이들을 공격 대상으로 삼는 신문 기사들의 목적은 뻔할것이다. ​그 담로 숫자가 가지는 마력으로 우리가 왜 숫자에 집착하고 잘 속는지 언급한 이후, 다양한 사람들이 숫자를 속이는 동기를 소개할것이다. 당하지 예기라면서 통계를 대하는 15가지 기본 원칙을 소개하기도 하네요. 이건 좀 참고할 만할것이다. 1. 성급한 판단을 지양하고 침착한 태도를 유지한다. 2. 기존 자료들을 입어느여 현 상황과 비교한다. 3. 증거 자료를 요청한다. 4. 실제로 파악 가능한 수치들인지 겸열해본다. 5. 예측의 정확도를 가늠해본다. 6. 어림잡아 계산해본다. 7. 개념의 정의를 따져본다. 8. 중요한 결정일 때에는 심히 신중을 기한다. 9. 자료의 출처를 확인해본다. 10. 그래프의 x 축과 y 축, ‘착시효과’ 등에 유의한다. 11. 그래프 담에 숨은 증거 자료들을 요청하고 겸열한다. 12. 독창적인 어린이드를 동원한다. 13. 직접 검산해본다 14. 용기내어 결단을 내린다. 15. 다섯가지 ‘입버릇'(때때로이 없다. 다들 그렇다고 하니까 그 예기이 맞겠지, 어차피 내 선에서 확인하지 못할거야, 검증한 거겠지?, 이 추세로 자신가면 그런 결론이 맞을거야)에서 친국어자신야 한다. ​이 모든 것이 버릇이 필요하다면서 버릇문제도 실어 뒀음니다. 웃기는 책이죠. 근데, 통계를 잘 모르신다면 참고할 만 할것이다. 리스크관리부에 있을 때 본부장님(지금은 퇴직하신…)은 차트자신 그래프를 믿지 않으셨음니다. 보고서에 연도별 차트 보다는 반드시 실제 숫자를 표로 싣게 하셨죠. %와 %p 표시 제대로 안하면 엄청 깨셨음니다. 외부자료의 경우 출처를 반드시 달게 하셨고, 가령 차트자신 그래프를 그린다면 가장 심플한 것을 선호하셨음니다. 방향성을 예단하게 하는 화살표는 못쓰게 하셨죠. 역시한 배우신 분… ^^: ​언론, 큰기업, 정치가는 숫자를 흔들어서 어떤을 얻고 있을까요? 요즈­음은 인터넷 댓글에도 밑도 끝도 없는 통계 숫자들을 들이대며 정부가 죽일 놈이라고 할것이다. 지금 보통선거철이 다가오니 더 심해지겠죠? 서로 숫자로 열심히 치고받을 겁니다. 그냥 상념을 예기하는 것보다 통계를 들이밀면 아무리 거짓예기이라도 거짓없이처럼 보이니 예기이죠. 책에서 예기한 것처럼 불리한 건 숨길 테고, 기준에 대해서는 예기을 흐리거자신 모른 척할 겁니다. 언론이 이러한 것을 밝혀 줘야 하는데, 언론이 제일 악질적으로 활용할 것입니다. 항시 정의보다 클릭 숫자가 더 중요해진 큰기업이니까요. 평범한 변화도 자극적인 변화로 만들것입니다. 어제 TV에서 <내부자들>이라는 영화를 다시 방영하던데, 당시 잠깐 반성하는 듯하더니 당시 자신 지금이자신 언론이(물론, 검찰이자신 큰기업들도) 참 달라진 게 없구자신 싶었음니다. ​아… 근데, 다시 예기씀드리지만 통계가 잘못한 건 없음니다. 통계를 쓰는 사람들이 잘못하는 거죠. 통계가 인류 발전에 기여한 엄청난 공로를 잊으면 안됩니다. 요사이 코로자신19의 경우에도 통계적으로 14일의 잠복기를 기준으로 감영 여부를 보는게 그 한 예죠. 이러한 것들이 없다면 세상이 참 혼란스러웠을 것입니다. 예외가 있다고, 시각은 극단치를 들고와서, 혹은 모든 사례를 커버하지 못한다고 통계가 비난받긴 하지만, 그래도 대단한 인류의 발견입니다. 제발 잘 사용합시다.

그본인저본인… 햇볕 화창한 오후에 날리는 눈발이라… 그것도 2월 중순이 지본인서…

>

날씨도 통계고 예측인데 얘기이죠… 또한 어려운 학문이다.

태그: