데이터 과학자의 사고법

August 5, 2023

서울대학교 통계학과 김용대 교수의 ‘데이터과학자의 사고법’ 내용을 정리

1. 데이터 리터러시: 숫자 없는 통계학

1.2 불확실한 세상을 위한 언어

불확실성에 대비하려면 먼저 불확실성을 측정해야함. 불확실성을 측정하는 방법중 가장 합리적인 것이 확률. 데이터로부터 불확실한 사건의 확률을 구하는 것이 데이터과학의 목적.
20세기까지 인류가 관심을 가진 문제는 확실하게 발생하는 것들이었음. 가령 해가 왜 뜨는지?, 꽃은 어떻게 피는지? 등. 그런데 현재의 인류는 불확실한 것에 관심을 갖기 시작. 내일 비가 올 사건, 암에 왜,언제,어떻게 걸리는지, 경제가 나빠지는 사건 등. 이러한 불확실성을 가진 사건들을 분석하는 데 활용되는 것이 데이터 과학. 불확실한 사건의 발생 가능성을 어떻게 확률로 표현할지 연구하는 분야.

데이터가 많아지면 대개의 경우 더 나은 판단을 내릴 수 있다. 대표적인 예가 몬티홀 문제(Monty Hall problem). 흥미로운 점은 몬티홀 문제의 해답을 보기 전까지 많은 사람들은 해당 상황에서 주어진 정보가 늘어났음에도 이길 확률이 높은 선택을 하지 않는다. 이 점이 확률 이론을 비롯한 데이터 과학을 잘 알고 있는 사람이 그렇지 않은 사람들에 비해 우위를 가져갈 수 있는 배경이 될 수 있고, 우리가 데이터 과학을 배워야 하는 이유이기도 함

1.3 확률, 그 오묘함에 대하여

$P(A)$는 사건 B의 정보가 없을 때 사건 A의 확률. $P(A \vert B)$는 사건 B를 경험한 후 사건 A에 대한 확률. $P(A \vert B)$와 $P(A)$의 차이를 이용해 사건 B가 사건 A에 대한 확률을 얼마나 바꾸는지 알 수 있음. 이 차이가 클수록 사건 B가 사건 A를 이해하는 데 중요한 역할을 한다고 볼 수 있음.
정확도가 97%인 거짓말탐지기가 우리나라의 법원에서 공식적인 증거로 채택되지 않는 이유는?? 97%라는 정확도의 착시현상 때문. 중요한 것은 단순 정확도가 아니라 조건부 정확도가 중요. A를 철수가 진짜 범죄자라는 사건, B를 거짓말탐지기가 철수를 범죄자로 지목하는 사건이라 할때 $P(A \vert B)$가 높아야 함. 그런데 우리나라 인구 5천만중 1퍼센트인 50만명이 범죄자라는 단순 가정을 하여 $P(A \vert B)$를 구해보면 24.6% 밖에 되지 않음.

1.4 종 모양의 데이터

모든 데이터에는 정보와 잡음이 섞여 있음. 이를 수식으로 표현하면 아래와 같음. D는 데이터, I는 정보, N은 잡음을 의미.

\[D = I + N\]

그런데 문제는 우리가 관측을 통해 아는 것은 D이고 이로부터 I와 N을 분리해야하는데, 식은 하나이고 미지수는 2개이니 식별(identification)의 문제가 발생.
위 문제를 해결하기 위해 데이터 과학자들은 잡음 N에 대해 고민. 어떤 과학 분야의 이론 검증을 위해 실험을 했는데 결과가 예상과 다르게 나왔다면 이게 이론의 문제인지, 아니면 잡음에 따른 오차인지 알 수 가 없음. 이에 대해 18세기에 가우스가 중심극한정리 이론을 발표해 잡음의 분포가 정규분포를 따른 다는 것을 증명.
정규분포는 어떻게 발견되었나?? 대부분의 과학적 문제에서 측정한 데이터에 대해 히스토그램을 그리면 대부분 종 모양의 곡선이 나옴. 이 종 모양의 곡선에 대해 과학자들은 왜 이 모양의 곡선이 나타나는지, 이 곡선의 수식은 어떻게 되는지에 대해 고민. 18세기 프랑스의 드 무아브르(Abraham de Moivre)가 결국 이 종모양의 수식을 발견. 이것이 정규분포.
그럼 왜 대부분의 히스토그램이 정규분포의 모양을 갖는지??

Share on

Twitter Facebook LinkedIn

Daily learner

데이터 과학자의 사고법

1. 데이터 리터러시: 숫자 없는 통계학

1.2 불확실한 세상을 위한 언어

1.3 확률, 그 오묘함에 대하여

1.4 종 모양의 데이터

Share on

Leave a comment

You may also enjoy

23년 가을 미국 NewYork, Maryland

log-normal 분포의 성질과 시뮬레이션

python에서 class의 개념과 예시

반도체 넥스트 시나리오