본문 바로가기

ADsP 데이터 분석 준전문가 자격증

[데이터 분석 - 통계분석] 01. 통계 분석

3_3_01 통계 분석

01. 통계 분석

1. 통계 분석 개요

모집단
(Population)
잘 정의된 연구목적과 이와 연계된 연구 대상(데이터의 전체 집합)
모수
(Parameter) 
모집단의 특성을 나타내는 수치들
표본
(Sample)
모집단의 개체 수가 많아 전부 조사하기 힘들때 모집단에서 추출한 것
통계량
(Statistic)
표본의 특성을 나타내는 수치들

 

2. 확률적 표본 추출 방법

단순 무작위 추출
(Simple Random Sampling)
모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출
계통 추출
(Systematic Sampling)
모집단 개체에 1, 2, .... , N 이라는 일련 번호를 부여하고 K개씩 n개의 구간으로 나눈 후 첫 구간에서 임의로 하나 선택 후 일정 간격(K) 으로 띄어서 표본 추출 
층화 추출
(Stratified Sampling) 
모집단을 서로 겹치지 않게 몇 개의 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기의 표본을 단순 무작위 추출범으로 추출
군집 추출
(Cluster Sampling)
모집단을 차이가 없는 여러 개의 집단으로 나누고, 일부 집단을 랜덤으로 선택하고 각 집단에서 표본을 임의 선택 

 

3. 척도의 종류

명목 척도
(Nomnal Scale)
• 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적
예 : 성별, 혈액형, 출생지
순위(서열) 척도
(Ordinal Scale)
• 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음
예 : 금/은/동, 선호도
등간(구간) 척도
(Interval Scale)
• 순위를 사이의 간격이 동일하여 양적인 비교가 가능함
• 절대 0점이 존재하지 않음
예 : 섭씨 온도, 물가 지수
비율 척도
(Ratio Scale)
• 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도
• 정보량이 가장 많음
예 : 몸무게, 나이, 소득, 절대 온도

 

▣ 집중화 경향

평균(Mean) , 중앙값(Median), 최빈값(Mode)

☞ Negative - Skewed : Mean < Median < Mode

☞ Positive-Skewed : Mode < Median < Mean 

 

▣ 데이터의 퍼짐 정도

산포도(Dispersion), 편차, 분산(Variance), 표준편차(Standard Deviation)

변동 계수(Coefficient of variation), 범위(Range)

 

 

4.  확률분포

확률분포는 어떤 확률 변수가 취할 수 있는 모든 값들과 그 값을 취할 확률의 대응 관계로 표시된 것이다.

이산형 확률분포 이항분포, 베르누이분포, 기하분포, 포아송분포 등
연속형 확률분포 정규분포, 지수분포, 연속균일분포,카이제곱분포, F분포, t분포, z분포 등

 

▣ 이산형 확률분포 : 별개의 확률 변수가 몇 개의 한정된 가능한 값을 가지는 분표

베르누이분포 모수가 하나이며 서로 반복되는 사건이 일어나는 실험을 반복적 실행을 확률뷴포로 나타낸 것
예 : 동전 던지기
이항분포 연속적인 베르누이 시행을 n번 반복하여 k번 성공할 확률 분포
예 : 주사위를 10번 던져서 나오는 눈이 5일 확률은?
기하분포 베르누이 시행에서 처음 성공시까지 시도한 횟수 X의 분포
포아송분포 단위 시간당 또는 단위 공간 내에서 발생하는 사건의 발생 횟수에 대한 확률분포

 

▣ 연속형 확률분포

정규분포 평균을 중심으로 좌우 대칭, 종 모양
지수분포 사건이 서로 독립일 때 다음 사건이 일어날 때까지의 대기 시간은 지수 분포를 따름
t분포 • 표본의 수가 30개 미만일 때 대응책으로 예측범위가 넓은 t분포를 사용함.
• 신뢰구간, 가설검정에 사용함.
• 두 집단의 평균이 동일한지 알고자 할 때 검정통계량 활용
카이제곱 분포 • 분산의 특징을 확률분포로 만드는 것으로 카이는 평균이 0, 분산이 1인 표준 정규 분포를 의미함.
• 
F분포 • 
카이제곱 분포는 한 집단의 분산, F분포는 두집단의 분산을 다룬다.
• 두 집단의 분산 크기가 같은지 다른지 비교하는데 사용함.

 

 
 
※ 예제 및 기출문제
 
1. 상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법으로 이질적인 모집단의 원소들로 유사한 것끼리 몇 개의 층으로 나눈 후, 각 계층에서 표본을 랜덤하데 추출하는 표본 추출 방법은 무엇인가?
 
 
 
 
 
정답 : 1 - 층화추출법,