본문 바로가기
보건학 관련

통계학5(자료의 기술, 평균적인 값)

by 비버닷 2024. 1. 30.

수치형 측정값들의 집합인 자료(data)는 특정 의미가 있는 방식으로 요약하지 않는 한 자료에 대한 ‘느낌’을 갖기가 매우 어렵다. 그림을 그려보는 것은 측정값들을 요약하기 위한 좋은 출발점이라 할 수 있다. 이와 더불어 자료의 중요한 특성을 묘사할 수 있는 어떤 척도를 제시할 수 있다면, 이 또한 자료의 정보를 파악할 수 있는 유용한 방법이 될 것이다. 특별히, 만일 우리가 자료의 대푯값에 대한 정보와 또 이 대푯값을 중심으로 자료가 얼마냐 흩어져 있는지 를 알 수 있다면, 자료의 전반적인 형태를 어느 정도는 파악할 수 있게 된다. 자료의 위치(location)를 평가하는 일반적인 척도는 평균적인 (average)이다. 이 장에서는 이 평균적인 값에 관한 척도, 그 중에서도 특히 자주 시용되는 평균(mean)과 중앙값(median)에 대해 알아보기로 한다. 

 

산술평균, 평균(mean) 

일반적으로 평균이라고 말할 때에는 산술평균(arithmetic mean)을 의미한다. 산술평균이란 값들을 모두 합한 뒤, 이 합을 자료의 개수로 나눈 것이다. 위와 같이 말로 서술할 수도 있지만, 다음과 같이 수학적인 공식을 사용해 표현할 수도 있다. 수학적 기호를 사용할 때에는, 변수에 대한 개의 관찰값들을 X1, Xz, X3,... , Xn %으로 표현한다. 예를 들어 변수가 사람의 키 (cm)를 나타내는 변수라고 한다면 X1 은 첫 번째 사람의 키를 나타내고 xi는 i 번째 사람의 키를 나타낸다. 이러한 기호를 사용해 관찰값들의 산술평균 (보통 x로 표기하고, ‘x bar로 읽는다)을 다음과 같이 표현한다.

또한 이 표현을 수학적 기호를 사용해서 다음과 같이 더 간단히 표현하기도 한다. 

여기서 그리스어 대문자인 ‘‘시그마 Sigma)" 는 ‘합을 계산'한다는 의미로 사용되는 기호이며 에 있는 아래 및 위 첨자들은 각각 자료를 i = 1에서 i = n까지 합한다는 표시이다. 위 식은 다음과 같이 더 간단한 형태로 표현해서 사용하기도 한다. 

 

중앙값(중위수, median)

중앙값(median)이란 자료를 작은 것부터 큰 것까지 크기 순으로 나열했을 때, 가운데에 위치하는 값을 의미한다. 따라서 중앙값은 크기 순으로 나열되어 있는 자료를 위와 아래로 절반씩 나누어 주는 값에 해당한다. 자료의 개수 이 홀(odd) 일 때에는 중앙값을 쉽게 계산할 수 있다. 즉, 이때의 중앙값은 크기 순으로 나열된 자료의 (n + 1)/2 번째 관찰값이다. 예를 들어 n = 11인 경우에는 크기 순으로 나열된 자료의 (11 + 1)/2 = 12/2 = 번째 관찰값이 바로 중앙값이 된다. 하지만 이 짝수(even) 일 때는 엄밀히 말해서 중앙값이 존재하지 않는다. 이때에는 일반적으로 크기 순오로 나열된 자료의 가운데 두 값, 즉 n/2 번째 값과 (n/2 + 1) 번째 값의 산술평균을 중앙값으로 정의한다. 예를 들어 n=20 인 자료의 중앙값은 크기 순으로 나열된 자료에서 20/2= 10 번째 값과 (20/2 + 1) = (10 + 1) = 11 번째 값의 산술평균이다. 만일 자료가 대칭적이라면 평균과 중앙값은 거의 일치하게 된다. 그러나 오른쪽으로 치우친 자료에서는 중앙값이 평균보다 작게 되고 , 왼쪽으로 치우친 자료에 대해서는 중앙값은 평균보다 크게 된다. 

 

최빈값(최빈수, mode)

자료 내에서 빈도가 가장 높은 을 최빈값(mode)이라 한다; 연속형 자료의 경우에는 일반적으로 자료를 집단으로 나눈 뒤 가장 높은 빈도를 차지하는 집단을 최빈값으로 선택한다. 만일 자료 내 각 의 빈도가 동일하다면 최빈값은 없다고 한다. 반면에 최빈값은 하나 이상일수도 있다; 즉, 가장 높은 빈도를 보이는 값이 두 개 이상이면 이들 모두 최빈값이 된다. 최빈값은 자료의 요약 척도로 잘 시용되지 않는다.  

 

기하평균(geometric mean, GM)

자료의 형태가 좌우대칭이 아니면 자료에 관한 요약척도로 산술평균을 사용하는 것은 적절하지 않댜 그런데 만일 자료가 오른쪽으로 치우쳐 있는 상태라면 자료의 각 값에 (밑이 10 또는 e인) 로그(logarithm)를 취해 자료를 대칭적인 형태로 바꾸어 줄 수 있다. 이러한 로그변환을 통해 자료의 분포가 대칭적으로 바뀐다면, 로그변환 된 값들의 산술평균을 변환된 자료의 위치척도로 사용할 수 있을 것이다. 하지만 (로그변환 된 자료를 사용해 계산된) 산술평균의 단위는 원자료와 다르다. 따라서 이 산술평균을 다시 역변환(anti-log 변환, 즉, 지수(exponent) 변환)해서 해당 산술평균의 단위를 원 자료와 동일한 단위로 바꾸어 줄 필요가 있다. 이 값을 기하평균(geometric mean, GM) 이 라 한다. 만일 로그변환 된 자료의 형 태가 대칭이라면 (즉, 원자료의 형태가 오른쪽으로 치우친 형태이면) 기하평균은 원자료의 평균보다 는 작지만 중앙값과는 거의 비슷하게 된다. 

 

가중평균 (weighted mean, WM)

변수의 값들 중 어떤 값이 다른 값보다 상대적으로 터 중요한 경우에는 가중평균(weighted mean, WM)을 사용하는 것이 좋다. 가중평균이란 값들의 상대적인 중요성을 반영하기 위해 각각의 값 x,에 가종값 w,를 부여하는 것을 말한다. 즉, 값 X1, X2, X3,... , Xn들에 대한 가중값을 각각 W1, W2, W3,... , Wn이라고 한다면 가중된 산술평균은 다음과 같이 계산된다. 

예를 들어 특정 지역 내 입원환자들의 평균 재원기간을 계산한다고 가정해 보자. 이를 위해 해당 지역 내 각 병원 별 평균 환자 퇴원기간 자료를 얻었다. 이 자료들을 산술평균 해서 해당지역 내 입원환자들의 평균 재원기간을 계산할 수도 있지만, 만일 병원 별 환자 수 정보도 있다면, 병원 별 환자 수를 가중값으로 사용한 가중평균을 계산할 수도 있다. 
모든 가중값들이 1이면 가중평균과 산술평균은 같게 된다. 

'보건학 관련' 카테고리의 다른 글

통계학11(신뢰구간)  (2) 2024.01.31
통계학9(자료의 변환)  (3) 2024.01.31
통계학7(정규분포)  (1) 2024.01.30
통계학6(자료의 기술, 흩어진 정도)  (0) 2024.01.30
통계학3(오류 검토 및 이상값)  (0) 2024.01.30