서울대학교 통계학과 김용대 교수의 ‘데이터과학자의 사고법’ 내용을 정리

1. 데이터 리터러시: 숫자 없는 통계학

1.2 불확실한 세상을 위한 언어


  • 불확실성에 대비하려면 먼저 불확실성을 측정해야함. 불확실성을 측정하는 방법중 가장 합리적인 것이 확률. 데이터로부터 불확실한 사건의 확률을 구하는 것이 데이터과학의 목적.

  • 20세기까지 인류가 관심을 가진 문제는 확실하게 발생하는 것들이었음. 가령 해가 왜 뜨는지?, 꽃은 어떻게 피는지? 등. 그런데 현재의 인류는 불확실한 것에 관심을 갖기 시작. 내일 비가 올 사건, 암에 왜,언제,어떻게 걸리는지, 경제가 나빠지는 사건 등. 이러한 불확실성을 가진 사건들을 분석하는 데 활용되는 것이 데이터 과학. 불확실한 사건의 발생 가능성을 어떻게 확률로 표현할지 연구하는 분야.

데이터가 많아지면 대개의 경우 더 나은 판단을 내릴 수 있다. 대표적인 예가 몬티홀 문제(Monty Hall problem). 흥미로운 점은 몬티홀 문제의 해답을 보기 전까지 많은 사람들은 해당 상황에서 주어진 정보가 늘어났음에도 이길 확률이 높은 선택을 하지 않는다. 이 점이 확률 이론을 비롯한 데이터 과학을 잘 알고 있는 사람이 그렇지 않은 사람들에 비해 우위를 가져갈 수 있는 배경이 될 수 있고, 우리가 데이터 과학을 배워야 하는 이유이기도 함

1.3 확률, 그 오묘함에 대하여


  • $P(A)$는 사건 B의 정보가 없을 때 사건 A의 확률. $P(A \vert B)$는 사건 B를 경험한 후 사건 A에 대한 확률. $P(A \vert B)$와 $P(A)$의 차이를 이용해 사건 B가 사건 A에 대한 확률을 얼마나 바꾸는지 알 수 있음. 이 차이가 클수록 사건 B가 사건 A를 이해하는 데 중요한 역할을 한다고 볼 수 있음.

  • 정확도가 97%인 거짓말탐지기가 우리나라의 법원에서 공식적인 증거로 채택되지 않는 이유는?? 97%라는 정확도의 착시현상 때문. 중요한 것은 단순 정확도가 아니라 조건부 정확도가 중요. A를 철수가 진짜 범죄자라는 사건, B를 거짓말탐지기가 철수를 범죄자로 지목하는 사건이라 할때 $P(A \vert B)$가 높아야 함. 그런데 우리나라 인구 5천만중 1퍼센트인 50만명이 범죄자라는 단순 가정을 하여 $P(A \vert B)$를 구해보면 24.6% 밖에 되지 않음.

1.4 종 모양의 데이터


  • 모든 데이터에는 정보와 잡음이 섞여 있음. 이를 수식으로 표현하면 아래와 같음. D는 데이터, I는 정보, N은 잡음을 의미.
\[D = I + N\]
  • 그런데 문제는 우리가 관측을 통해 아는 것은 D이고 이로부터 I와 N을 분리해야하는데, 식은 하나이고 미지수는 2개이니 식별(identification)의 문제가 발생.

  • 위 문제를 해결하기 위해 데이터 과학자들은 잡음 N에 대해 고민. 어떤 과학 분야의 이론 검증을 위해 실험을 했는데 결과가 예상과 다르게 나왔다면 이게 이론의 문제인지, 아니면 잡음에 따른 오차인지 알 수 가 없음. 이에 대해 18세기에 가우스가 중심극한정리 이론을 발표해 잡음의 분포가 정규분포를 따른 다는 것을 증명.

  • 정규분포는 어떻게 발견되었나?? 대부분의 과학적 문제에서 측정한 데이터에 대해 히스토그램을 그리면 대부분 종 모양의 곡선이 나옴. 이 종 모양의 곡선에 대해 과학자들은 왜 이 모양의 곡선이 나타나는지, 이 곡선의 수식은 어떻게 되는지에 대해 고민. 18세기 프랑스의 드 무아브르(Abraham de Moivre)가 결국 이 종모양의 수식을 발견. 이것이 정규분포.

  • 그럼 왜 대부분의 히스토그램이 정규분포의 모양을 갖는지??

Leave a comment