'데이터'에 해당되는 글 1건

  1. 2019.11.26 통계적으로 생각하기 - 유리 브람

무수한 데이터가 생성되는 요즘, 효과적으로 데이터를 선별/가공하고 확률의 관점에서 통계적으로 생각하고, 추론하고, 의사결정하기.....

 

 

[본문 발췌]

 

이 세상은 정보로 이루어져 있고, 사람들은 자신들에게 주어지는 정보에 기초하여 판단을 하고 또 수없이 많은 종류의 결정을 내립니다. 만약 사람들이 얻은 정보가 계통 오차적으로 편향되어 있거나 누락된 부분이 있다면, 그 정보에 기초하여 내리는 결정 또한 계통적인 오류가 있을 겁니다. 정식 통계학은 정확하고 세부적인 정보를 가지고 여기서 얻을 수 있는 것을 증명하는 데 목적을 둡니다. 하지만 비공식적 통계학은 우리 삶에서 볼 수 있는 애매하고 일반적인 정보를 가지고 기본적인 통계 개념을 활용해 보편적으로 더 나은 결정과 판단을 내리는 데 목적을 둡니다. 

 

 

선택 편향, 비무작위적 표본을 마치 무작위 표본인 것처럼 생각하고 사용할 때 발생하는 오류. 

개인의 삶 가운데 선택 편향이 일어나는 경우가 많은데, 그 이유는 우리가 오직 '1인칭' 시점으로 우리에게 일어나는 일들만 경험할 수 있고 다른 사람의 '1인칭'  경험에 대해서는 정보를 가지고 있지 않기 때문입니다.

 

 

[책을 마치며] 에서 발췌

  • 선택 편향은 어디에나 있고, 우리가 비무작위 표본을 무작위 표본처럼 대할 때 발생하게 됩니다. 어떤 데이터의 경우에는 당신의 표본에 들어 있는 특정 데이터가 다른 데이터값에 의존하여 그 스스로를 편향되게 만들기도 합니다. 그런 이유로 미국의 트루먼 대통령의 재선에 대한 유선 여론조사가 실제와는 전혀 다른 결과를 예측하게 되었고, 미국 통계청의 인구조사가 방해받기도 합니다. 선택 편향은 우리의 일상 생활에서 역시 상사들이 부하 직원들로부터 올바른 피드백을 받는 것을 방해하기도 하고, 우리가 매우 인상적인 사람들이라 다른 사람들이 우리를 잘 기억한다고 생각하게 만들기도 하죠. 또한 모든 자유 공연 참가자들은 자신이 가장 좋은 연주를 했다고 착각하게 되기도 합니다.

  • 내생성 문제는 무작위라고 가정한 오차항이 (머릿속) 모형의 다른 변수 또는 포함되어야 하지만 누락된 변수와 연관관계를 가질 때 일어납니다. 내생성 문제 때문에 노력과 학업 능력을 측정하는 도구로서의 대학 평균 학점의 가치가 무의미해지고, 보험사나 경영컨설팅 회사의 광고가 틀린 것이 되죠. 또한 빌 게이츠와 마크 저커버그가 대학 자퇴생의 대표적인 예시로 사용되면 안 되는 이유가 되기도 합니다. 내생성은 사회과학의 대표적인 연구 주제들엣도 나타나며 유명한 격언인 "상관관계는 인과관계를 나타내지 않는다"에서도 잘 살펴볼 수 있죠.

  • 베이즈의 정리는 새로운 증거에 기초해 이전에 가지고 있던 가설을 업데이트할 수 있도록 도와줍니다. 이 정리는 왜 러더퍼드의 새로운 원자 모형이 받아들여지게 되었는지, 그리고 왜 좀비 감염 여부를 정확하게 시험하는 것이 어려운지를 설명해줍니다. 셀리 클라크의 재판은 대중이 베이즈의 이론을 몰라서 발생하는 끔찍한 결과들을 잘 나타내는 예시입니다. 이 정리는 왜 경영대학원에 진학하는 숫자를 가지고 직장을 선택하면 안 되는지, 또 왜 누군가의 페이스북 프로필만 보고 그 사람이 게이인지 아닌지를 구별할 수 없는지를 설명하기도 합니다. 베이즈의 정리는 왜 학교에서 공부를 못하는 학생들이 다음 세대 아인슈타인이 될 수 없는지, 그리고 왜 소위 '픽업 아티스트'라고 불리는 사람들이 실제로는 자신들이 생각하는 것만큼 인기가 많은 사람들이 아닌지를 설명해주기도 합니다.

  • 항상 당신이 필요한 모든 정보를 얻었는지 확인하고, 그 정보가 누락되지 않았는지 확인하세요.

  • 당신의 머릿속 모형이 필요한 모든 변수들을 포함하는지 확인하세요. 그 모형의 오차항이 완전히 무작위적이고 다른 변수들 또는 누락된 변수들과 숨겨진 상관관계를 가지고 있지 않은지 확인하세요.

  • 새로운 정보에 기초해 확률적 평가를 업데이트하지만, 다른 대안 가설들의 기존 확률들을 잊으면 안 됩니다.

 

과거에는 제한된 정보를 가지고 어떻게 하면 좋은 통계적 추론을 이끌어낼 수 있을 것인가를 고민했다면, 21세기 현재에는 너무도 많은 정보로 인해 어떻게 정보를 정리해야 더 편리하게 사용할 수 있을 것인가라는 고민으로 바뀌었죠. - 옮긴이의 말

 

 

 

https://book.naver.com/bookdb/book_detail.nhn?bid=11355259

반응형

'4.읽고쓰기(reading & essay)' 카테고리의 다른 글

[검색사전] 감동(感動)  (0) 2019.11.27
반 고흐, 영혼의 편지  (0) 2019.11.27
냉면의 품격 - 이용재  (0) 2019.11.26
잃어버린 여행가방 - 박완서  (0) 2019.11.25
[검색사전] 불안(不安)  (0) 2019.11.22
Posted by 소요유+
,