2021년 6월 1일 화요일

나는 감이 아니라 데이터로 말한다

제목이 약간 도발적이다. 너희들은 감으로 이야기하지만 나는 객관적 사실을 가지고 이야기한다는 것인가? 이 책을 집어든 것이 대략 1년 쯤 전이었던 것 같다. 한참 데이터 관련 책들을 모두 읽어보자고 작심하던 때였다. 박형준의 『빅데이터 빅마인드』, 스타벅스의 데이터 과학자 차현나가 쓴 『데이터 읽기의 기술』, 좀 다른 이야기이지만 연세대 산업공학과 임춘성 교수가 쓴 『멋진 신세계』, 사회학자 하워드 베커가 쓴 『증거의 오류』, 한양대 경영대학 장석권 교수가 쓴 『데이터를 철학하다』 , 구글 데이터 과학자의 『모두 거짓말을 한다』 등을 보았다.

그 중에 증거의 오류와 데이터를 철학하다는 읽다가 너무 지루해서 집어던졌다. 가장 재미있게 본 두 권은 『모두 거짓말을 한다』와 『나는 감이 아니라 데이터로 말한다』였다. 전자는 구글의 검색 데이터만 가지고도 많은 사회 현상을 설명/예측할 수 있는 경제학자 출신 데이터 과학자의 통찰이 빛났었다. 후자의 책 역시, 경제학자 출신의 데이터 과학자가 데이터로 설명력을 높여주는 여러 가지 인간 집단의 특성과 사회적인 현상을 바라보는 틀을 배울 수 있어서 좋았다.  그리고 별로 기대하지 않았지만 생각보다 괜찮았고 인사이트를 주었던 책은 『빅데이터 빅마인드』, 데이터 과학자들이 무슨 일을 하는지 자세하게 알고 싶어 잔뜩 기대했지만 별로 기대에 차지 않았던 책은 『데이터 읽기의 기술』이었다.

경제학자들의 관심사가 무엇인지, 그리고 그 관심사들이 결국 심리학자들의 관심사와 얼마나 중첩되는지 엿보게 된 것 같다. 세상 일에 관심을 갖는 경제학자들과 사회학자들이 사회 현상을 이해하기 위해 여러 가지 데이터를 수집하고, 관찰한다. 그 데이터는 결국, 사람들의 행동과 반응을 집합적으로 모은 것이고, 그 안에는 인간 행동의 원리, 심리학의 관찰과 실험 데이터가 들어있다. 마치 데이터라는 다리를 통해, 세상과 인간을 더 잘 설명할 수 있도록 여러 학문들이 만난다고나 할까. 

책은 상당히 재미있다.  다음과 같은 질문들을 생각해보자.

로또 1등 당첨자가 나온 곳에서는 다음에도 당첨자가 또 나올까? 지금까지 슛을 많이 넣은 농구 선수는 다음 번에  슛을 성공할 확률이 더 높은 것일까? 투스트라이크 이후에 심판의 스트라이크 판정 확률은 낮아질까? 전염병 예방 백신을 맞고 부작용으로 사망할 확률보다 전염병으로 사망할 확률이 훨씬 높은데 왜 어떤 사람들은 백신을 안 맞으려고 할까? 유전무죄는 실제 법정에서 판결 결과로 나타날까? 딸을 가진 아빠들은 더 페미니스트 성향을 갖게 될까? 국회의원이나, 이사회에 여성 할당제를 실시하면 능력이 안 되는 여성들이 더 등용될까? 월드컵 기간에는 심장 마비로 인한 사망률이 더 높아질까? 1인1투표를 통해 부자와 가난한 사람들이 모두 동등한 참정권을 갖게 된 것일까? 왜 백화점/인터넷 할인가는 9,900원과 같은 9로 끝나는 경우가 많은가? 잘 생긴 사람이 선거에서 뽑힐 가능성이 더 높을까? 정부 정책은 장기적으로 효과가 있을까? 담배세를 얼마나 올려야 국민 건강에 이득이 될까? 중년의 위기는 실존하는가?

이런 여러 가지 재미난 질문들에 대해서, 단순히 주장이나 당위가 아니라, 데이터를 증거로 답을 찾아간다. 그 데이터들은 때로는 통제된 실험실의 데이터이기도 하고, 엄청나게 많은 사람들에 대한 응답 데이터이기도 하고, 시장이나 주가를 분석한 데이터이기도 하고, 오랜 기간 축적된, 또는 추적하거나, 관찰한 데이터이기도 하다. 

사람들에게는 휴리스틱(heuristic, 발견법)이라는 간편하고 훌륭한 의사결정 기제가 있다. 그러나 휴리스틱은 종종 많은 편파와 오류를 만들어내기도 한다. 그래서 증거와 데이터에 기반해서 세상을 이해하려는 의식적인 노력이 필요하다. 그럴 때 세상의 다양한 데이터를 어떻게 바라보고, 수집하고, 끌어와야 하는지, 그것을 어떻게 읽어낼 수 있는지에 대해 모범 사례들을 접하고 싶다면, 이 책을 읽어보라고 권하고 싶다.

댓글 없음:

댓글 쓰기