통계학의 분류
서술통계학(Descriptive Statistics): 데이터의 특성을 그래프 등을 이용해 직관적으로 표현하는 통계학의 한 분야입니다. 이는 복잡한 데이터를 이해하기 쉬운 형태로 요약하고 시각화하는 데 중점을 둡니다.
사례 : 학교 성적 분석
상황: 학교에서 학생들의 시험 성적을 분석하여 평균, 중앙값, 최빈값, 표준편차 등을 계산해 학생들의 성적 분포를 이해하려고 합니다.
import numpy as np
# 학생들의 시험 성적 예시 데이터
scores = [85, 90, 78, 88, 76, 92, 75, 83, 69, 77]
# 평균, 중앙값, 최빈값, 표준편차 계산
average = np.mean(scores)
median = np.median(scores)
mode = max(set(scores), key=scores.count)
std_deviation = np.std(scores)
print(f"Average: {average}, Median: {median}, Mode: {mode}, Standard Deviation: {std_deviation}")
Average: 81.3, Median: 80.5, Mode: 69, Standard Deviation: 7.071774883294857
추정통계학(Inferential Statistics): 표본 데이터를 이용하여 모집단의 특성을 추정하는 통계학입니다. 이는 표본을 통해 모집단에 대한 결론을 내리는 과정에 초점을 맞춥니다.
- 사례 : 시뮬레이션을 통한 일정한 모집단을 설정 후, 표본추출 후 다시 역으로 모집단을 추정
import numpy as np
from scipy import stats
# 1. 모집단 생성: 만족도가 1에서 5 사이인 1000명의 고객
population = np.random.choice([1, 2, 3, 4, 5], 1000, p=[0.05, 0.15, 0.20, 0.35, 0.25])
# 2. 표본 추출: 모집단에서 무작위로 30명을 추출
sample = np.random.choice(population, 30)
# 3. 표본 분석: 평균과 표준편차 계산
sample_mean = np.mean(sample)
sample_std = np.std(sample, ddof=1)
# 4. 모집단에 대한 추정: 신뢰 구간 계산
sample_size = len(sample)
confidence_level = 0.95
t_critical = stats.t.ppf((1 + confidence_level) / 2, df=sample_size-1)
margin_of_error = t_critical * (sample_std / np.sqrt(sample_size))
confidence_interval = (sample_mean - margin_of_error, sample_mean + margin_of_error)
sample_mean, sample_std, confidence_interval
# 모집단의 실제 평균 계산
population_mean = np.mean(population)
# 표본 추정 평균과 모집단 실제 평균 간의 차이
difference = abs(population_mean - sample_mean)
population_mean, difference
모집단(Population)과 표본(Sample)
- 모집단: 관심 있는 전체 대상 집단을 의미합니다. 예를 들어, '한국 청년 남녀의 평균키'는 모집단의 특성이 됩니다.
- 표본: 모집단에서 추출된 일부분으로, 모집단의 특성을 추정하는 데 사용됩니다. 표본 추출은 시간과 비용을 절감하고, 대규모 모집단의 특성을 정확히 반영할 수 있게 합니다.
자료(데이터)와 그 분류
- 비계량적 데이터: 특성에 관한 데이터입니다. 예를 들어, '연령별 좋아하는 색깔' 등이 이에 해당합니다.
- 계량적 데이터: 숫자로 표현되는 데이터로, 비연속적(예: 가구당 자녀 수) 또는 연속적(예: 일일 수면 시간)일 수 있습니다.
데이터에 사용된 척도의 분류
- 명목 척도(Nominal Measurement): 데이터를 범주화하여 분류하는 척도입니다. 예: '대학생이 가장 좋아하는 계절'.
- 서열 척도(Ordinal Measurement): 순서나 등급을 기반으로 데이터를 분류하는 척도입니다. 예: '장차관 인사에 대한 국민의 평가'.
서술통계학의 기법: 사례
- 도수분포(Frequency Distribution): 데이터를 특정 구간으로 분류하고, 각 구간에 해당하는 빈도를 나타냅니다. 예를 들어, 히스토그램이나 원형 그래프는 이에 해당합니다.
- 상대빈도분포(Relative Frequency Distribution): 빈도를 백분율로 나타낸 분포입니다. 이를 통해 전체 데이터 중 특정 범주가 차지하는 비율을 쉽게 이해할 수 있습니다.