본문 바로가기
책 리뷰

원인과 결과의 경제학 - 나카무로 마키코, 쓰가와 유스케

by 직_장인 2023. 12. 11.

제목 : 원인과 결과의 경제학

저자 : 나카무로 마키코, 쓰가와 유스케

출판사 : 리더스북

 

1. 인트로

제목 때문에 오해 할 수 있는데, 경제학 책은 아니고 인과추론 책이다.

 

올해부터 인과추론에 관심이 생겨서 이것저것 찾아봤는데 한국어 자료는 거의 없었다.

유튜브로 좋은 강의(인과추론의 데이터 과학)를 찾았지만,

설명을 위해 중간중간 나오는 영어단어들은 쉽게 익숙해지지 않았다.

 

좀 더 쉬운 자료가 없을까 하던 중에 이 책을 발견했다.

경제, 교육, 의료 상식을 예시로 인과추론에 대해 방법들을 소개하고, 쉬운 용어로 설명하고 있어서 내 수준에 딱 맞았다.

예시들의 대부분의 출처가 논문이기 때문에 신뢰성과 전문성은 높아 보이며,

(얄팍한 나의 지식범위 기준으로) 핵심적인 내용도 다 다룬다.

 

2. 요약

책 리뷰이기 때문에 2~8장 까지는 목차만 소개하고, 각 장의 구체적인 내용은 추후에 다루고자 한다.

 

제1장 - 근거 없는 통설에 속지 않으려면 - 인과 추론의 본질

- 인과관계와 상관관계

- 가장 먼저 체크해야 할 세 가지 포인트

  • ‘우연의 일치’는 아닌가?
  • ‘제3의 변수(원인과 결과에 동시에 영향을 미치는 요소)’는 없는가?
  • ‘역의 인과관계’는 존재하지 않는가?

- 인과 추론은 원인에 의한 결과를 추론하는 것이다.

- 원인이라면 처치/치료로 말할 수 있고, 결과는 효과가 있었는지 혹은 없었는지로 말할 수 있다.

- 이를 알기 위해서는 특정 그룹에 대해 치료를 받았을 때와 받지 않았을 때를 알아야 한다.

- 하지만 현실적으로 두가지 상태가 동시에 존재할 수는 없다.

- 따라서 둘 중 한가지 상태는 실제 사실에 반대되는 상황을 가정한 것이고, 이를 '반사실(Counterfactual)' 이라고 한다.

- 실제 사실(ex. 치료를 받은 경우)과 반사실(ex. 반대로 치료를 받지 않은 경우를 가정)을 비교하여 인과추론을 할 수 있다.

- 문제는 반사실을 어떻게 가정할 것인가?, 실제 사실과 반사실을 어떻게 비교 가능하도록 만들 것인가? 이다.

 

제2장 - 건강검진을 받으면 오래 살 수 있다? - 제대로 된 비교는 랜덤이 진리

- 랜덤화 비교 시험(Randomized Expriments)에 대해 설명한다.

- 두 그룹을 비교 가능하게 하기 위해 그룹의 모집단을 랜덤하게 구성하는 방법이다.


제3장 - 남성 의사가 여성 의사보다 뛰어나다? - 우연히 일어난 상황을 이용해볼 수 있다면

- 자연 실험(Natural Experiment)에 대해 설명한다.

제4장 - 어린이집을 늘리면 여성 취업률이 올라갈까? - ‘트렌드’에 속지 마라

- 준실험(Quasi-Experiment) 방법 중 하나인 이중차분법(Difference-in-Differences)에 대해 설명한다.


제5장 - 텔레비전을 많이 보면 아이들 머리가 나빠진다? - 제3의 변수를 이용하라

- 준실험 방법 중 하나인 조작 변수법에 대해 설명한다.

 

제6장 - 공부 잘하는 친구와 사귀면 성적이 오를까? - 갑자기 튀어나온 ‘점프’에 주목하라

- 준실험 방법 중 하나인 회귀 불연속(Regression Discontinuity)에 대해 설명한다.


제7장 - 명문대를 졸업하면 연봉이 높을까? - 비슷한 대상들끼리의 조합을 찾아라

- 준실험 방법 중 하나인 매칭법(Matching)에 대해 설명한다.

 

제8장 - 어떻게 해도 도저히 예측이 불가능하다면 - 기존 데이터를 다시 들여다보자

- 회귀 분석(Regression)에 대해 설명한다.

 

3. 느낀점

데이터 관련 일을 하면서 항상 어려운 것이

'이 분석/연구/프로젝트의 목적이 무엇인가?, 어떤 문제를 해결하려고 하는가?, 이 방법으로 문제를 풀었을 때 다른 사람들을 설득할 수 있을 것인가?' 하는 부분이다.

 

이런 근본적인 질문에 답하기 위해서는

데이터를 잘 다뤄서 그 안에 숨겨진 insight를 얻고, 현재보다 더 나은 결과를 도출해야 한다.

(더 나은 결과가 아니라면 무슨 이유로 더 못한 결과가 나왔는지 이해해야 한다.)

 

답을 찾기 위해

가장 성능 좋은 최신 이론(State-of-the-art)을 이용해서 문제를 풀 수도 있고,

문제를 다른 관점에서 바라보며 간단하지만 창의적인 방법으로 풀 수도 있다.

 

물론 둘 다 중요한 부분이지만,

나에게는 문제를 다른 관점에서 보는게 더 재미있고 적합한 방법이었다.

 

그렇다 보니 자연스럽게 

관리자 관점에서 기획과 문제 정의에 관심을 갖게 되었고,

실무자 관점에서 도메인 기반의 깊은 데이터 분석(EDA), 인과추론 방법론, 데이터의 연결성을 직관적으로 이해할 수 있는 그래프 이론에 관심을 갖게 되었다.

(쓰고 보니 점점 수평전개 하는 느낌이긴 한데.. 하나만 제대로 잡고해도 어려운 분야들인건 사실이다.)

 

책의 저자는 말했다.

빅데이터 시대에는 데이터 분석 기술뿐 아니라 데이터의 분석 결과를 해석하는 기술도 필요하다.
'인과추론'은 결국 데이터가 범람하는 시대의 필수 요양이라고 할 수 있을 것이다.

 

공감하는 부분인데, 인과관계를 분석하는 능력은 더 중요해질 것 같다.

 

인과추론 개념의 큰 틀을 이해하는데 유익한 책이었다.

 

댓글