자료를 요약할 때 3가지 방법이 있다.
1) 평균(Mean)
서로 다른 n개의 자료들을 하나의 대푯값으로 표현하고자 할 때 사용한다. 직관적이고 계산이 쉬워 가장 많이 사용하는 대푯값이지만 극단적으로 아주 크거나 작은 값의 영향을 많이 받을 수 있다. 구하는 방법은 값을 모두 더한 다음 값의 개수로 나누는 것이다.
관측값: 1, 2, 3 의 평균: (1+2+3)/3 = 2
2) 중앙값(Median)
자료를 크기 순으로 배열할 때 중앙에 위치하는 값이다. 자료의 수가 홀수이면 정 가운데 순서로 오는 값이고 자료의 수가 짝수이면 가운데 오는 두 값의 평균을 사용한다.
관측값: 1, 2, 3 의 중앙값: 2
관측값: 1, 2, 3, 4 의 중앙값: (2+3)/2 = 2.5
관측값의 순위를 가지고 구하는 값이므로 관측 값 변화에 덜 민감하기 때문에 소득 자료처럼 극단값이 있는 경우 중앙값을 대푯값으로 많이 사용한다.
3) 최빈값(Mode)
관측값 중에서 빈도수가 가장 큰 값으로 연속형 자료보다는 주로 이산형 자료나 범주형 자료에 대한 중심위치로 많이 사용한다. 관측값 1,1,1,3 의 최빈값 = 1
표본평균과 중앙값 비교하기
월급이 120, 130, 150, 200, 1000만원 으로 구성되어 있다면,평균 소득은 320만원인 반면 중앙값은 150>만원이다.
이 때는 값이 얼마나 퍼져있는지를 확인해야한다. 퍼진 정도를 확인하는 방법이 편차와 분산을 계산해보는 것이다. 편차는 하나의 관측값과 평균의 차이이고 이러한 편차들을 제곱한 값을 모두 합하여 1/(n-1)로 나는 값이 표본분산이다. 표본분산은 항상 0보다 크거나 같다.
표본분산이 0 이라는 것은 모든 편차들이 0 이라는 뜻이어서 자료들의 값이 평균과 같다는 것을 의미한다. 값: 1, 1, 1 이면 평균도 1 이고 편차는 0=(1-1), 0=(1-1), 0=(1-1)이고 0+0+0 = 0 이다. 표본분산이 0 보다 크다는 뜻은 편차의 절대값이 크다는 의미어서 오른쪽이든 왼쪽이든 값들이 평균보다 멀리 떨어져있다는 의미이다. 따라서 자료의 퍼진 정도가 크다. 표준편차는 표준분산의 루트값이다. 범위는 최대값에서 최소값을 뺀 값이다. 간편하게 구할 수 있지만 중간 부분의 다른 관측값이 어떤 분포 특징을 가지는지 고려하지 못한다는 단점이 있다.
변동계수(CV, Coefficient of cariation)
자료의 단위가 다른 값들 즉, cm자료 값과 ml자료 값의 퍼진 정도를 비교할 때 표준편차나 사분위수 범위로 비교하는 것은 부적절하다. 변동계수는 표준편차를 평균으로 나누어 준 값인데 표본평균에 대한 상대적인 퍼진 정도를 백분율로 나타낸 값이다. 변동계수는 표준편차/평균 값에 100을 곱해 %로 나타낸다.
전체적인 분포를 확인하는 방법으로는 상자그림을 많이 사용한다.
두 변수 자료의 요약
두 변수가 모두 범주형인 경우에는 표의 형태로 자료를 요약할 수 있다. 성별이나 찬반 여부에 따라서 결과값을 나타내고 합계를 내는 방식이다. 결과값 자체가 아닌 비율로 계산해서 나타낼 수도 있다.
두 변수가 연속형인 경우에는 두 변수 사이에 연관성이 있는지. 있다면 연관성의 방향이 어떻게 되는지 등을 확인하기 위해 산점도를 그려볼 수 있다. n쌍의 자료에 대해(x, y) 값으로 순서쌍들을 점으로 찍어 나타내는 그림이다. 산점도에 대한 해석은 주관적이고 스케일을 어떻게 잡느냐에 따라 달라 보일 수 있다. 두 연속형 변수 사이의 연관성 정도를 객관적인 수치로 나타내는 방법으로는 표본상관계수가 있다. 이는 보통 피어슨의 상관계수라고도 부른다.
표본상관계수는 1보다는 크거나 같고 -1보다는 작거나 같다. 양의 값을 가지면 양의 상관관계를 가지고 음의 값을 가지면 음의 상관관계를 가진다. 표본상관계수가 0 이면 변수 x와 y사이에 선형관계가 없는데, 연관성이 없다는 의미는 아니다. 표본상관계수의 절대값이 1에 가까울수록 선형관계가 강하고 0 에 가까울수록 선형관계가 약하다. 표본상관계수가 0 이더라도 두 변수 간에 선형관계가 아닌 다른 연관성을 가질 수 있다. 수직관계, 수평관계, 곡선관계여도 표본상관계수는 0 이 나온다. 또한 상관계수가 크다고 해서 이것이 인과관계를 의미하지는 않는다. 왜냐하면 두 변수 x와 y사이의 관계를 교란하거나 제어하는 또다른 변수가 있을 수 있기 때문이다. 이를 잠재변수 혹은 교란변수라고 부른다. 따라서 이런 변수가 존재하면 x와 y사이에 직접적인 인과관계는 없더라도 데이터 상에서 강한 양의 상관관계를 가질 수 있다.
'교육 이론' 카테고리의 다른 글
가설검정과 대응 비교 예제 (0) | 2023.06.02 |
---|---|
통계적 추론과 가설검정 (0) | 2023.05.26 |
데이터의 유형과 시각화 기초: 도수분포표, 히스토그램 (0) | 2023.05.15 |
교육학에서의 데이터 과학 (0) | 2023.05.12 |
마이크로 티칭(수업 시연)과 수업 분석 (0) | 2023.05.08 |