본문 바로가기
보건학 관련

통계학22(가설검정2)

by 비버닷 2024. 2. 22.

 비모수적 검정(nonparametric test) 

자료가 따르는 확률분포와 관련된 정보를 사용해 가설검정을 실시하는 것을 모수적 검정(parametric test)이라 한다. 하지만 자료가 모수적 검정을 실시하기에 필요한 가정들을 항상 만족시켜 주는 것은 아니다. 이런 경우에는 비모수적 검정을 사용할 수 있다. (비모수적 검정을 분포 무관 방법 (distribution-free method) 또는 순위-기반 방법 (rank-based method)이라 부르기도 한다.  일반적으로 이 검정은 자료 값 자체가 아닌 자료의 순위(rank), 즉 크기 순으로 나열된 자료에 대해 1, 2, 3,... 의 순서를 매긴 것을 사용하는 방법이며, 자료가 따르고 있는확률분포의 형태에 대한가정은 따로 하지 않는다. 비모수적 검정은 특별히 표본 수가 작을 때 효과적이며 (왜냐하면 이 경우에는 표본을 사용해 모집단 자료의 분포형태를 평가하기가 불가능하기 때문에), 자료가 범주형 척도로 측정된 경우에도 효과적인 방법이다. 그러냐 비모수적 검정은 일반적으로 자료에 관한 모든 정보를 사용하지 않기 때문에, 만일 모수적인 검정방법에서 요구되는 모든 가정들이 충족되는 상황이라면, 비모수적 검정은 이에 대응하는 모수적 검정에 비해 실제 효과를 파악해 낼 수 있는 검정력 (power)이 낮아지게 된다. 또한 비모수적 검정은 연구자가 실제로 관심이 있는 효과 추정값은 제공하지 않고, 기본적으로 유의성 여부만을 판단하는 검정방법이다; 따라서 비모수적 검정은 자료에 대한 이해나 평가를 하기 위한 방법이라기보다 통계적인 의사결정만을 하기위한 방법이라고 할 수 있다. 

 

검정방법의 선택 

통계적인 검정방법의 선택은 연구의 설계, 변수의 종류 및 자료가 따르는 분포의 형태 등에 의해 결정되게 된다. 

 

가설검정과 신뢰구간 

신뢰구간과 가설검정은 서로 밀접한 관련이 있다. 가설검정의 주된 목적은 의사결정을 내리고 정확한 P-value를 계산하고자 하는 데 있다. 반면에 신뢰구간은 관심효과(예를 들면 평균의 차이)의 크기를 정량화하고, 결과가 내포하고 있는 의미를 임상적/보건학적으로 평가할 수 있도록 해주는 방법이다. 비록 신뢰구간은 정확한 P-value를 제공하지 않지만, 대신에 실제 효과의 크기에 관한 예상 범위를 제공해주기 때문에, 이를 이용해 통계적인 의사결정을 할 수 있다. 예를 들어 만일 효과에 대해 가정한 값(예를 들면 0) 이 95% 신뢰구간 밖에 존재한다면 우리는 이 가정된 값이 매우 비현실적인 값이라고간주하고 Ho을 기각할 수 있다. 이 경우, 물 
론 정확한 크기는 알 수 없겠지만, 해당 P-value 또한 0.05 보다 작을 것이라고 예상할 수 있다.

 

 동등성 시험(equivalence trial) 및 비열등성 시험(non-inferiority trial)

두 개 또는 그 이상의 서로 다른 처리들을 비교하는 대다수 무작위배정 임상시험의 목적은 특정 처리가 다른 처리들에 비해 우월(superiority) 하다는 점을 증명하고자 하는 데 있다. 그러나 때로는, 새로운 처리(예를 들면 신약)가 기존의 처리에 비해 임상적으로 더 좋은 효과가 있다는 것을 보이고자 하는 것은 아니지만, 기타 다른 중요한 장점들, 예를 들면 기존 약재에 비해 부작용이 적거나, 또는 일회 복용 알약 수가 적어서 이로 인한 환자의 복용 부담이나 비용이 더 적게 든다는 것 등과 같은 상대적인 장점이 있음을 보이고자 하는 경우가 있다. 이 경우 연구자들이 실제로 원하는 것은 새로운 처리가 기존의 처리에 비해 적어도 그 효능이 같거나(동등성 시험) 혹은 실질적으로 더 나쁘지는 않다( 비열등성 시험)는 것을 보이는 것이라 할 수 있다. 한편 생동등성 시험 (bioequivalence trial) 은 동일한 용량을 투여했을 경우 새로운 약의 제형이 인체 내흡수율이나 흡수량 동에 있어서 기존 약의 제형과 자이가 없는지를 보기 위한특별한형태의 무작위 임상시험이다. 동등성 또는 비열등성 임상시험의 경우에 두 처리의 효과가 동일하다는 귀무가설을 검정하는 일반적인 우월성 시험의 가설검정 절치를· 그대로 적용하는 것은 부적절하다.

왜냐하면 우월성 시험의 결과가 유의하지 않다고 해서 이것이 바로 비열등성/동등-성을 의미하는〈 것 
은 아니기 때문이며  만일 우월성 시험에서 통계적으로 유의한 결과가 얻어졌다 하더라도 이것이 임상적인 측면에서는 중요하지 않은 내용일 수도 있기 때문이다. 따라서 동등성 임상 시험의 경우에는 기본적으로 귀무가설과 대립가설의 역할을 바꿔서 귀무가설은 동등하지 않다는 내용이 (즉, 차이가 있다는 것이), 그리고 대립가설은 동등하다는 내용이 표현되도록 설정한다.
동등성 여부를 평가하는 일반적인 절차는, 검정통계량을 계산하는 대신, 관심효과(예를 들면 두 처리집단 간 평균 차이)에 대한 신뢰구간을 계산한 뒤) 이 구간이 전체적으로 혹은 부분적으로 혹은 전혀, 미리 설정된 동등성 범위 (equivalence range; 임상적으로 판단할 때 두 처리 간에는 차이가 없다고》 즉, 동등하다고 볼 수 있는, 임상전문가들에 의해 결정되는 효과의 범위) 내에 존재하는지의 여부를 결정하는 방식으로 진행된다. 만일 관심효과에 대한 신뢰구간 전체가 동등성 범위 내에 존재하게 된다면 두 처리는 동등한 것으로 판단한다. 이 경우 만일 신뢰구간의 상한이나 하한이 특정 처리가 다른 처리에 비해 통계적으로 유의함을 보여준다고 할지라도 (즉, 동등성 범위 내에 존재하는 신뢰구간이 값을 포함하고 있지 않더라도) 이것이 해당 처리가 임상적으로 더 중요하다는 것을 의미할 가능성은 적다. 비열등성 여부 역시 신뢰구간을 사용해 평가한다. 비열등성 임상시험은 새로운 처리의 효능이 기존의 표준 처리와 비교해 더 나쁘지는 않다는 것을 보이고자 하는 경우이다 (만일 새로운 처리가 기존의 처리에 비해 더 좋은 것으로 판명이 된다면 이는 보너스이다!). 만일 해당 신뢰구간의 하한이 열등성 범위의 하한(즉, 비열등성 한계) non-inferioritymargin) 보다 더 작지 않다면 
새로운 처리는 기존 처리와 비교해 비열등한 것으로 판단한다. 특별히 따로 명시하지 않는 한 본 서에서 소개되는 가설검정 방법들은 우월성 검정에 관한 것들이다. 표본 수 결정방법은 동등성 임상시험이나 비열등성 임상시험에 적용될 수 있는 방법들이 아니다. 표본 수에 영향을 미치는 다른 요인들(예를 들면 유의 수준) 검정력 등)이 동일한 경우에 동등성이나 비열등성 시험에서 필요로 하는 표본은 일반적으로 이에 대응하는 우월성 시험의 표본 수보다 더 많아지게 된다.