표본을 모으는 이유 중 하나는 바로 이 표본이 우리가 모집단에 대해 세운 특정 가설에 반하는 증거를 얼마나 제공하고 있는지 평가하기 위한 것이다. 사실 자료에 대한 기술적인 분석만 실시해도 자료가 가설을 지지하는, 또는 반박하는, 경향성이 있는지에 대해서는 어느 정도 파악할 수 있다. 그러나 이러한 경향성이 표본과 모집단 간 실제적인 관련성을 반영하는 것인지 아니면 모든 종류의 표본 자료에 항상 존재하는 단순 우연변동(chance variation)에 기인한 결과인지를 구별할 수는 없다. 이를 구별하기 위해 우리는 가설검정 (hypothesis testing, 혹은 유의성 검정, significance testing)이라 불리는 통계적 절차를 사용해 특정 가설이 틀렸다고 볼 수 있는 믿음의 크기를 측정한다. 이 번에는 먼저 가설검정 방법의 일반적인 절차에 대해 알아보고, 다음 장에서 가설검정 시 발생할 수 있는 오류들을 설명한다. 연속형 자료와 범주형 자료에 주로 사용되는 가설검정 방법들의 구체적인 사용법에 대해서는 이후의 장들에서 자세히 설명하도록 하겠다. 또한 각 방법들을 쉽게 참조하고 시용할 수 있도록 요약해서 아래에 정리와 같이 정리했다.
<가설검정-일반적인 절차>
가설검정은 다음과 같이 다섯 단계에 걸쳐 수행되게 된다.
1. 관심 연구에 관한 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)을 설정한다.
2. 표본으로부터 적절한 자료를 모은다
3. 귀무가설이 사실인 경우에 해당하는 검정통계량(teststatistic) 값을 계산한다
4. 이 검정통계량 값을 이미 알려진 확률분포의 값들과 비교해서 P-value(P- 값)를 계산한다.
5. P-value를 해석하고 결론을 내린다.
귀무가설(null hypothesis)과 대립가설(alternative hypothesis) 설정
우리는 보통 모집단에서 효과가 없다고 (예를 들어 평균의 차이가 이라고) 가정하는 귀무가설(Ho)을 (표본을 사용해) 검정하게 된다. 예를 들어 모집단 내 남녀 간 흡연율을 비교하고자 한다면 귀무가설을 아래와 같이 설정한다.
Ho : 모집단 흡연율은 남녀 간에 서로 동일하다.
다음으로 귀무가설이 사실이 아닌 경우에 주장하고자 하는 내용을 대립가설(H1)로 설정한다. 대립가설은 현재 연구하고자 하는 이론과 직접적으로 관련이 있는 가설이다. 따라서 위 예의 경우 대립가설은 아래와 같이 정의될 수 있다.
H1 : 모집단 흡연율은 남녀 간에 서로 다르다.
대립가설에서 남녀 간 흡연율 차이의 방향성에 대해서는 명시하지 않았다. 즉, 모집단에서 남자와 여자 중 어느 쪽의 흡연율이 더 높은지에 대해서는 언급하지 않았다. 이와 같이 군 간 차이의 방향성을 명시하지 않는 검정을 양측검정(two-sided test)이라 한다. 일반적으로는(특히 인간을 대상으로 시행되는 연구의 경우), 만일 군 간 차이가 있다고 한다면, 이 차이의 방향이 어느 쪽을 향하게 될지는 미리 예측하기 어렵기 때문에 대부분 양측검정을 사용하는 것이 추천된다. 물론, 매우 드물기는 하지만, H1에서 효과의 방향성을 미리 지정하는 단측검정(one-sided test)을 실시하기도 한다. 예를 들어 연구하고자 하는 질병이 치료를 받지 않으면 모두 사망을 하게 되는 병인 상황에서 위약 대조군을 사용하는 경우 (신약이 사망보다 더 나쁜 상황을 들 수는 없다. 또는 동등성이나 열등성 임상시험을 수행하는 경우 등이 이에 해당한다.
검정통계량(test statistic) 계산
표본 자료가 수집되면 이 자료들을 사용해, 검정통계량이라 부르는, 가설검정에 사용할 공식을 계산하게 된다. 검정통계량은 표본의 요약통계량 값과 귀무가 에서 설정된 값 간의 차이를 계산한 값이다. 즉) 귀무가설에서 설정한 값을 사용해서 계산한다. 검정통계량은 자료가 제공하는 귀무가설에 반하는(against) 증거의 크기) 즉) 자료가 귀무가 이 맞지 다는 증거를 얼마만큼 반영해주고 있는지를 파악하기 위한 척도이다. 검정통계량은 양수나 음수 둘 다 될 수 있으며 일반적으로 검정통계량의 절댓값이 크면 클수록 (귀무가설에 대립하는) 자료의 증거는 더 강해진다고 할 수 있다.
P-value (P- 값) 계산
모든 검정통계량은 형대가 알려져 있는 이론적인 확률분포에 따르게 된다. P-value는 표본으로부터 얻어진 검정통계량 값에 해당하는) 확률분포의 양쪽 (단측검정의 경우에는 한쪽) 꼬리면적이다. 대부분의 통계 소프트웨어에서 제공하는 P-value는 양쪽 꼬리면적의 값) 즉 양측 P-value (two-sided P-value)이다. P-value는 귀무가설이 사실인 경우에 (표본이 제공하는) 현재와 같은 혹은 이보다 더 극단적인 결과들이 얻어지게 될 확률이다. 귀무가설은 표본이 아니라 우리가 알지 못하는 모집단에 대해 서술한 것이기 때문에 맞을 수도 있고 맞지 않을 수도 있다. 따라서 P-value를 귀무가설이 사실일 확률(가능성)이라고 해석할 수는 없다.
P-value의 해석
우리는 자료가 어느 정도 크기의 증거를 보일 때, 대립가설을 선호하면서, 귀무가설을 기각할 것인지 결정해야만 한다. P-value가 작으면 작을수록 자료가 귀무가설에 반한다는 증거의 크기는 더 커지게 된다.
• 일반적으로 P-value가 0.05 보다 작으면 귀무가설을 기각할 수 있는 충분한 증거가 있다고 본다. 왜냐하면, 이 기준을 사용한다면, 귀무가설이 사실인 경우에 현재와 같은 혹은 이보다 더 극단적인 결과가 얻어질 가능성은 충분히 작다고 말할 수 있기 때문이다. 이런 경우 우리는 귀무가설을 기각하고(reject H0), 해당 결과는 5% 수준에서 유의하다(significant)라고 말한다.
• 반면에 만일 P-value 가 0.05와 같거나 크면 귀무가설을 기각할 만한 충분한 증거가 없다고 결정하계 된다. 이런 경우 우리는 귀무가설을 기각하지 않고(do not reject H0), 해당 결과는 5% 수준에서 유의하지 않다(not significant)라고 말한다. 하지만 이것이 귀무가설이 사실이라는 것을 의미하는 것은 아니다. 단지 자료가 귀무가설을 기각할 만한 충분한 증거를 제공하고 있지 않을 뿐이라는 의미이다.
사실 5%라는 기준은 임의적인 값이다. 의사결정의 기준 값으로 5%를 사용한다는 것은 우리가 귀무가설이 사실인데도 불구하고 를 기각하게 되는 잘못을 100번 중 번 정도 저지를 것이라는 의미이다. 만일 귀무가설을 잘못 기각하는 경우 임상적/보건학적으로 우려될 만한 결과가 초래될 수 있는 상황이라고 한다면 귀무가설을 기각하기 위한 기준을 더 강하게 설정하면 된다 (예를 들어 기준 값으로 1%나 0.1%를 사용해 P-value가 0.01 보다 작을 때, 혹은 0.001 보다 작을 때, 귀무가설을 기각하기로 하면 된다). 이와 같은 기준 값, 즉, 귀무가설에 대한 의사결정을 하기 위해 P-value와 비교하는 기준으로 선택한 값을 해당 검정에 대한 유의 수준(significance level)이라 한다; 유의 수준의 크기는 자료가 수집되기 전에 미리 결정되어야 한다. 결과가 단순히 유의한 지의 여부만을 제시하는 것(예를 들어 P < 0.05라고만 표현하는)은 잘못된 정보가 제공될 수 있다. 예를 들어 P = 0.04 이면 Ho는 기각되게 될 것이지만, P = 0.06 이면 우리는 均를 기각하지 않을 것이다. 하지만 P = 0.04 인 결과와 P = 0.06 인 결과가 서로 다르면 얼마나 다르겠는가? 그러나 만일 P = 0.0003 이면 이 값이 주는 의미는 P = 0.06인 경우와는 시뭇 다를 것이다. 따라서 P-value를 제시할 때는 항상 통계 소프트웨어에서 분 석결과로 제공되는 P-value를 정확히 제시하는 것이 좋다
'보건학 관련' 카테고리의 다른 글
통계학22(가설검정2) (1) | 2024.02.22 |
---|---|
통계학20(사례-대조군 연구2) (1) | 2024.02.17 |
통계학19(사례-대조군 연구1, Case-control studies) (2) | 2024.02.15 |
통계학18(코호트 연구2) (1) | 2024.02.12 |
통계학17(코호트 연구) (1) | 2024.02.10 |