데이터는 여러 가지 변수로 구성되어 있다. 변수는 데이터를 수집할 때 측정 결과나 조사 대상에 따라 다양한 값을 가질 수 있는 하나의 특성이다. 관심있는 변수들을 조사하거나 측정하여 실제 값들을 모은 결과를 데이터라고 한다.
양적변수는 수치형 변수라고 하며 연속형 변수(키, 몸무게)와 이산형 변수(산불 발생 건수)가 있다.
질적변수는 범주형 변수라고 하며 순위형 변수와 명목형 변수가 있다. 순위형 변수는 말 그대로 순위가 있는 자료로서 1등급, 2등급, 3등급 등으로 등급을 나눌 수 있는 데이터이다. 혈액형은 순위의 의미를 따질 수 없는 명목형 변수다.
범주형 자료를 요약할 때는 도수분포표를 활용할 수 있다. 도수는 각 범주에 속하는 관측 값의 개수이고 이를 전체 도수로 나눈 값들을 상대도수라고 한다. 상대도수는 전체 중 n% 비율을 소수점으로 표현한 것이라 생각하면 된다. (예: 40% = 상대도수 0.4) 도수나 상대도수를 가지고 전체에 비례하여 만든 원형그래프를 만들 수도 있다. 각 범주가 전체에서 차지하는 비율을 한 눈에 파악하기는 쉽지만 범주가 너무 많은 경우에는 분포를 파악하기가 어렵다. 막대그래프는 도수의 크기를 막대의 높이로 나타낸 그림이다. 각 범주간 도수의 크기를 비교하기는 쉬우나 각 범주가 전체에서 차지하는 비율을 확인하기에는 원형 그래프보다 어렵다.
연속형 자료의 요약 방법: 도수분포표
연속형 자료를 요약할 때는 범주형 자료처럼 관측값을 몇 개의 구간으로 나누어 도수를 세어서 작성한다. 구간의 폭을 크게 하느냐 작게 하느냐에 따라 도수분포표는 달라질 수 있다, 연속형 자료는 먼저 자료의 범위(최댓값-최솟값)를 구하고 계급의 수가 5~15개가 되도록 자료의 범위를 계급의 수로 나눈다. 관측값은 계급의 경계에 놓이지 않도록 계급 구간을 정해야 한다. 이후 각 계급에서 도수와 상대도수를 구한다.
구간
빈도
누적빈도
상대빈도
0~20점
1
1
0.05
21~40점
3
4
0.15
41~60점
5
9
0.25
61~80점
7
16
0.35
81~100점
4
20
0.20
합계
20
1.00
연속형 자료의 시각화: 히스토그램, 도수다각형, 줄기-잎 그림
이런 연속형 자료를 시각화 하는 방법 중 대표적인 것은 히스토그램이 있다. 히스토그램의 막대 높이는 상대도수/계급 구간의 폭 이다. 히스토그램의 전체 면적은 1이다. 계급 구간의 폭이 모두 동일할 때는 막대의 높이가 도수에 비례하게 된다. 도수다각형도 있다. 히스토그램의 각 계급구간 막대 상단의 중앙점을 연결한 그림이다.
5구간으로 설정했을 때의 모습10구간으로 설정했을 때의 모습
히스토그램과 도수다각형은 자료의 분포를 쉽게 파악할 수 있는 장점이 있지만 개체들의 관측 값에 대한 정보를 잃어버린다는 단점이 있다. 히스토그램에서 좀 더 자세한 정보를 담아 시각화를 하려는 경우에는 줄기-잎 그림을 그리기도 한다.
줄기-잎 그림의 작성 방법
관측 값을 앞단위와 뒷단위로 나눈다. 앞단위를 줄기로 하여 순서대로 세로로 배열하고 그 옆에 수직선을 그린다. 뒷단위는 잎으로 하여 앞단위의 오른쪽에 가로로 기입한다. 각 줄기에서 잎 부분 값을 작은 숫자가 왼쪽에 오도록 크기순으로 재배열한다.