어려운 결정을 내려야 할 때 참고하기에 좋은 분석 도구인 사 분 표를 알려주고 있는데 여기에서 정리하도록 하겠습니다. 의사결정을 직관과 짐작이 아닌 확률을 따져 좀 더 현명한 결정을 내리게 할 수 있습니다.
나만의 사분표 만들기
사분표를 이용하면 베이즈식 확률 모델을 쉽게 계산할 수 있다. 가상의 질병 눈 침침병의 사례를 이용하겠다.
- 혈액검사를 받았는데 눈 침침병에 대해 양성반응이 나왔다.
- 눈 침침병의 기저율은 1만 명당 한 명, 즉 0.0001이다.
- 가상의 약물 클로로하이드록실렌을 사용하면, 원치 않는 부작용을 경험할 확률이 5% 즉 0.05%이다.
- 눈 침침병의 혈액검사가 잘못 나올 확률은 2%, 즉 0.02이다.
여기서 문제는 당신은 약을 먹어야 하는가, 먹지 말아야 하는가?를 결정하는 것이다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | |||
아니다 | ||||
총계 |
표의 칸들을 이용하면 자료를 서로 배타적인 네 개 범주로 나눌 수 있다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | 진짜 양성 | 거짓 음성 | |
아니다 | 거짓 양성 | 진짜 음성 | ||
총계 |
이제 우리가 알고 있는 내용을 채우기 시작한다. 이 질병의 기저율은 1만 명당 한 명(1만 분의 1)이다. 사분표 바깥쪽 오른쪽 아래 총합계 1만을 적는다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | |||
아니다 | ||||
총계 | 10,000 |
우리가 사분표의 도움을 받아 계산하려는 것은 사분표 안팎의 다른 칸에 들어갈 숫자들이다. 우리는 전체 집단 1만 명 중 한 명이 눈침침병이라는 것을 알고 있다. 1이라는 숫자를 '질병 여부: 그렇다'에 해당하는 제1사분표 오른쪽 여백 칸에 적는다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | 1 | ||
아니다 | ||||
총계 | 10,000 |
사분표의 디자인 방식 때문에 세로로 합한 값과 가로로 합한 값은 해당 제일 오른쪽 여백칸(가로줄의 경우)나 제일 아래 여백칸(세로줄의 경우)에 있는 수치와 같아야 한다. 계산을 하면 전체 집단에서 병에 걸리지 않은 사람은 '10,000-1=9,999명'이다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | 1 | ||
아니다 | 9,999 | |||
총계 | 10,000 |
의사가 말하길 검사 결과가 2% 정도 부정확하다고 했다. 이 2%라는 수치를 오른쪽 여백 칸의 수치에 적용한다. 거짓양성에 해당하는 칸에 '2% ×9,999=199.98'이므로 200으로 반올림한다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | 1 | ||
아니다 | 200 | 9,999 | ||
총계 | 10,000 |
가로줄과 세로줄의 합이 각각 여백 칸의 수치와 같아야 하므로 이제 병에 걸리지 않고 검사 결과도 음성으로 나온 사람들, 즉 진짜 음성의 숫자를 계산하면, '9,999-200=9,799'이다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | 1 | ||
아니다 | 200 | 9,799 | 9,999 | |
10,000 |
이제 2%의 거짓 음성 값을 사분표에 채울 차례다. 거짓 음성은 병에 걸렸는데 검사에는 그렇지 않다는 결과가 나온 것을 의미한다. 계산해 보면 '2% ×1=0.02', 반올림해 0이다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | 0 | 1 | |
아니다 | 200 | 9,799 | 9,999 | |
총계 | 10,000 |
그럼 당연히 빈 안쪽 칸에는 1이라는 숫자가 채워진다. 계산하면 '1-0=1'이다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | 1 | 0 | 1 |
아니다 | 200 | 9,799 | 9,999 | |
총계 |
이제 표를 마무리하기 위해 세로줄의 숫자를 더해 아래쪽 여백 칸을 채운다. 양성반응이 나온 사람의 숫자는 '1+200=201', 그리고 음성반응이 나온 사람의 숫자는 '0+9,799=9,799'이다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | 1 | 0 | 1 |
아니다 | 200 | 9,799 | 9,999 | |
총계 | 201 | 9,799 | 10,000 |
1. 검사 결과가 양성으로 나왔을 때 당신이 병에 걸렸을 확률은 얼마나 되는가?
전통적으로 '나왔을 때'라는 표현은 '|'라는 기호로 바꾸고(조건절은 뒤로 보낸다), '확률'이라는 단어는 영문자 'p'로 바꾸어 다음과 같은 일종의 방정식을 구성할 수 있다.
1.1. p(당신이 병에 걸렸다| 당신의 검사 결과가 양성이다)
구절의 첫 번째 부분, 즉 '|' 기호 앞의 모든 것은 분수의 분자가 되고, '|' 기호 뒤의 모든 것은 분모가 된다. 1번 질문에 대답하려면 양성반응이 나온 사람들의 세로줄, 즉 왼쪽 세로줄만 보면 된다. 양성반응이 나온 201명 중 실제로 병에 걸린 사람은 한 명이었다. 따라서 그 답은 1/201=0.49%다.
2. 당신이 병에 걸렸을 경우, 양성반응이 나올 확률은 얼마나 되는가?
2.1. p(당신의 검사 결과가 양성이다 | 당신이 병에 걸렸다)
여기서는 위쪽 가로줄만 보면서 1분의 1이라는 분수를 구성하면 된다. 따라서 정말로 병에 걸렸다면 양성반응이 나올 확률은 100%다.
가상의 치료제인 클로로하이드록실렌은 부작용 발생 확률이 20%이다. 눈 침침병에 양성반응이 나온 사람 201명을 모두 치료한다면 그중 20% 즉 40명이 부작용을 경험하게 된다. 실제로 병에 걸린 사람은 한 명뿐임을 명심하자. 그럼 이 치료법은 치료 효과를 볼 확률보다 부작용을 경험할 확률이 40배나 더 높다.
검사를 두 번 해볼 수 있다. 검사가 두 번이나 잘못 나올 확률은 '2% ×2%=0.004'다. 분수로 계산하면 '1/50 ×1/50=1/2,500'이다. 하지만 이 통계는 기저율, 즉 질병의 희귀성을 고려하지 않았다. 이것을 고려하는 것이 이 부록의 핵심 포인트다.
"두 번 연속 양성반응이 나왔을 때 내가 병에 걸렸을 확률은 얼마나 되는가?"
베이즈식 추론의 특성 중 하나는 갱신된 확률을 새로운 표에 입력해서 다시 갱신할 수 있다는 점이다. 이렇게 정보를 새롭게 갱신할 때마다 새로운 사분표를 구축할 수 있고, 그렇게 함으로써 더욱 정확한 추정치에 근접하게 된다.
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | 1 | 0 | 1 |
아니다 | 200 | 9,799 | 9,999 | |
총계 | 201 | 9,799 | 10,000 |
이 표로부터 다음과 같은 내용을 파악할 수 있었다.
- 양성반응이 나온 사람의 숫자 : 201
- 양성반응이 나오고 실제로 병에 걸린 사람의 숫자 : 1
- 양성반응이 나오고 병에 걸리지 않은 사람의 숫자 : 200
두 번째 검사 결과는 양성, 혹은 음성이 나올 수 있다. 질병 여부는 그럴 수도 있고, 아닐 수도 있다. 그리고 이제 전체 집단의 크기는 1만 명이 아니다. 1만 명의 부분집합인, 처음에 양성이 나왔던 201명이다. 제일 오른쪽 아래 전체 집단 칸에 201을 적는다(1).
검사 결과 | ||||
양성 | 음성 | |||
질병 여부 | 그렇다 | 1(5) | 0(4) | 1(2) |
아니다 | 4(6) | 196(7) | 200(3) | |
총계 | 5(8) | 196(9) | 201(1) |
이 전체 집단에서 병에 걸린 사람(2)과 걸리지 않은 사람(3)의 숫자를 알고 있으니 그 값을 제일 오른쪽 여백 칸에 채워넣는다. 검사결과는 2% 정도 부정확하게 나온다. 실제로 병에 걸린 사람은 한 명이다. '1 ×2%=0.02' 반올림하면 0이 나온다(4). 이것은 거짓 음성이 나오는 사람(병에 걸렸지만 두 번째로 잘못된 진단이 나온 사람)의 숫자다. 그리고 '1 ×98%=0.98'은 1에 가깝다(5).
병에 걸리지 않은 사람에게도 똑같이 2% 오류율을 적용한다. 병에 걸리지 않았는데 양성으로 나온 200명의 2%는 네 명이다(6). 그럼 정확한 진단이 나온 196명은 안쪽 칸 오른쪽 아래 적는다(7). 세로줄의 값을 더하면 아래쪽 여백 칸에 들어갈 총계가 나온다. '1+4=5'(8), '0+196=196'(9)
두 번째도 양성반응이 나온 사람 다섯명 중 실제로 병에 걸린 사람은 한 명이다. '1/5=0.02'이다. 이 질병은 대단히 희귀하기 때문에 연속으로 두 번 양성반응이 나왔다 해도 실제로 병에 걸렸을 확률은 겨우 20%라는 의미다. 따라서 병에 걸리지 않았을 확률은 80%이다.
부작용은 어떨까? 만약 연속적으로 두 번 양성반응이 나온 모든 사람을 대상으로 5%의 부작용 발생 확률을 가진 가상의 약물 클로로이드록실렌을 처방하면 그 다섯 명 중 5%, 즉 0.25명은 부작용을 경험한다. 따라서 질병을 가지고 있을 확률도 낮지만 머리카락이 다 빠지는 부작용을 경험할 확률도 별로 없다. 다섯 명이 치료를 받았을 때마다 한 명은 치료가 될 것이고, 0.25명은 부작용을 겪을 것이다. 두 번 검사를 시행하는 이 경우, 당신은 부작용을 경험할 확률보다 치료 효과를 경험할 가능성이 네 배 더 커졌다.
베이즈식 통계를 여기서 한 단계 더 발전시킬 수 있다. 확률 계산은 의학적인 문제를 넘어 실생활의 다양한 분야에 적용할 수 있다. 사분표가 정보의 정돈을 돕는 어림짐작의 역할을 해주고, 수치를 시각적으로 편하게 보여줘서 좋다는 사람이 많다. 이것을 이용하면 중간에 어떤 실수를 범해도 그것을 포착하는데 도움이 된다.
"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."