교육 이론

자료의 요약: 평균, 중앙값, 최빈값, 변수 간 상관관계

슈니첼 2023. 5. 19. 17:35
반응형

자료를 요약할 때 3가지 방법이 있다.

 

1) 평균(Mean)

서로 다른 n개의 자료들을 하나의 대푯값으로 표현하고자 할 때 사용한다. 직관적이고 계산이 쉬워 가장 많이 사용하는 대푯값이지만 극단적으로 아주 크거나 작은 값의 영향을 많이 받을 수 있다. 구하는 방법은 값을 모두 더한 다음 값의 개수로 나누는 것이다.

관측값: 1, 2, 3 의 평균: (1+2+3)/3 = 2

 

2) 중앙값(Median)

자료를 크기 순으로 배열할 때 중앙에 위치하는 값이다. 자료의 수가 홀수이면 정 가운데 순서로 오는 값이고 자료의 수가 짝수이면 가운데 오는 두 값의 평균을 사용한다.

관측값: 1, 2, 3 의 중앙값: 2

관측값: 1, 2, 3, 4 의 중앙값: (2+3)/2 = 2.5

관측값의 순위를 가지고 구하는 값이므로 관측 값 변화에 덜 민감하기 때문에 소득 자료처럼 극단값이 있는 경우 중앙값을 대푯값으로 많이 사용한다.

 

3) 최빈값(Mode)

관측값 중에서 빈도수가 가장 큰 값으로 연속형 자료보다는 주로 이산형 자료나 범주형 자료에 대한 중심위치로 많이 사용한다. 관측값 1,1,1,3 의 최빈값 = 1

 

 

표본평균과 중앙값 비교하기

월급이 120, 130, 150, 200, 1000만원 으로 구성되어 있다면,평균 소득은 320만원인 반면 중앙값은 150>만원이다.

이 때는 값이 얼마나 퍼져있는지를 확인해야한다. 퍼진 정도를 확인하는 방법이 편차와 분산을 계산해보는 것이다. 편차는 하나의 관측값과 평균의 차이이고 이러한 편차들을 제곱한 값을 모두 합하여 1/(n-1)로 나는 값이 표본분산이다. 표본분산은 항상 0보다 크거나 같다.

 

표본분산이 0 이라는 것은 모든 편차들이 0 이라는 뜻이어서 자료들의 값이 평균과 같다는 것을 의미한다. 값: 1, 1, 1 이면 평균도 1 이고 편차는 0=(1-1), 0=(1-1), 0=(1-1)이고 0+0+0 = 0 이다. 표본분산이 0 보다 크다는 뜻은 편차의 절대값이 크다는 의미어서 오른쪽이든 왼쪽이든 값들이 평균보다 멀리 떨어져있다는 의미이다. 따라서 자료의 퍼진 정도가 크다. 표준편차는 표준분산의 루트값이다. 범위는 최대값에서 최소값을 뺀 값이다. 간편하게 구할 수 있지만 중간 부분의 다른 관측값이 어떤 분포 특징을 가지는지 고려하지 못한다는 단점이 있다.

 

변동계수(CV, Coefficient of cariation)

자료의 단위가 다른 값들 즉, cm자료 값과 ml자료 값의 퍼진 정도를 비교할 때 표준편차나 사분위수 범위로 비교하는 것은 부적절하다. 변동계수는 표준편차를 평균으로 나누어 준 값인데 표본평균에 대한 상대적인 퍼진 정도를 백분율로 나타낸 값이다. 변동계수는 표준편차/평균 값에 100을 곱해 %로 나타낸다.

전체적인 분포를 확인하는 방법으로는 상자그림을 많이 사용한다.

 

두 변수 자료의 요약

두 변수가 모두 범주형인 경우에는 표의 형태로 자료를 요약할 수 있다. 성별이나 찬반 여부에 따라서 결과값을 나타내고 합계를 내는 방식이다. 결과값 자체가 아닌 비율로 계산해서 나타낼 수도 있다.

 

산점도
산점도 예시

 

두 변수가 연속형인 경우에는 두 변수 사이에 연관성이 있는지. 있다면 연관성의 방향이 어떻게 되는지 등을 확인하기 위해 산점도를 그려볼 수 있다. n쌍의 자료에 대해(x, y) 값으로 순서쌍들을 점으로 찍어 나타내는 그림이다. 산점도에 대한 해석은 주관적이고 스케일을 어떻게 잡느냐에 따라 달라 보일 수 있다. 두 연속형 변수 사이의 연관성 정도를 객관적인 수치로 나타내는 방법으로는 표본상관계수가 있다. 이는 보통 피어슨의 상관계수라고도 부른다.

 

양의상관관계
양의 상관관계

 

음의상관관계
음의 상관관계

 

표본상관계수는 1보다는 크거나 같고 -1보다는 작거나 같다. 양의 값을 가지면 양의 상관관계를 가지고 음의 값을 가지면 음의 상관관계를 가진다. 표본상관계수가 0 이면 변수 x와 y사이에 선형관계가 없는데, 연관성이 없다는 의미는 아니다. 표본상관계수의 절대값이 1에 가까울수록 선형관계가 강하고 0 에 가까울수록 선형관계가 약하다. 표본상관계수가 0 이더라도 두 변수 간에 선형관계가 아닌 다른 연관성을 가질 수 있다. 수직관계, 수평관계, 곡선관계여도 표본상관계수는 0 이 나온다. 또한 상관계수가 크다고 해서 이것이 인과관계를 의미하지는 않는다. 왜냐하면 두 변수 x와 y사이의 관계를 교란하거나 제어하는 또다른 변수가 있을 수 있기 때문이다. 이를 잠재변수 혹은 교란변수라고 부른다. 따라서 이런 변수가 존재하면 x와 y사이에 직접적인 인과관계는 없더라도 데이터 상에서 강한 양의 상관관계를 가질 수 있다.

 

표본상관계수
표본상관계수 구하는 식