01. 통계 분석
1. 통계 분석 개요
모집단 (Population) |
잘 정의된 연구목적과 이와 연계된 연구 대상(데이터의 전체 집합) |
모수 (Parameter) |
모집단의 특성을 나타내는 수치들 |
표본 (Sample) |
모집단의 개체 수가 많아 전부 조사하기 힘들때 모집단에서 추출한 것 |
통계량 (Statistic) |
표본의 특성을 나타내는 수치들 |
2. 확률적 표본 추출 방법
단순 무작위 추출 (Simple Random Sampling) |
모집단의 각 개체가 표본으로 선택될 확률이 동일하게 추출 |
계통 추출 (Systematic Sampling) |
모집단 개체에 1, 2, .... , N 이라는 일련 번호를 부여하고 K개씩 n개의 구간으로 나눈 후 첫 구간에서 임의로 하나 선택 후 일정 간격(K) 으로 띄어서 표본 추출 |
층화 추출 (Stratified Sampling) |
모집단을 서로 겹치지 않게 몇 개의 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기의 표본을 단순 무작위 추출범으로 추출 |
군집 추출 (Cluster Sampling) |
모집단을 차이가 없는 여러 개의 집단으로 나누고, 일부 집단을 랜덤으로 선택하고 각 집단에서 표본을 임의 선택 |
3. 척도의 종류
명목 척도 (Nomnal Scale) |
• 단순히 측정 대상의 특성을 분류하거나 확인하기 위한 목적 예 : 성별, 혈액형, 출생지 |
순위(서열) 척도 (Ordinal Scale) |
• 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없음 예 : 금/은/동, 선호도 |
등간(구간) 척도 (Interval Scale) |
• 순위를 사이의 간격이 동일하여 양적인 비교가 가능함 • 절대 0점이 존재하지 않음 예 : 섭씨 온도, 물가 지수 |
비율 척도 (Ratio Scale) |
• 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도 • 정보량이 가장 많음 예 : 몸무게, 나이, 소득, 절대 온도 |
▣ 집중화 경향
평균(Mean) , 중앙값(Median), 최빈값(Mode)
☞ Negative - Skewed : Mean < Median < Mode
☞ Positive-Skewed : Mode < Median < Mean
▣ 데이터의 퍼짐 정도
산포도(Dispersion), 편차, 분산(Variance), 표준편차(Standard Deviation)
변동 계수(Coefficient of variation), 범위(Range)
4. 확률분포
확률분포는 어떤 확률 변수가 취할 수 있는 모든 값들과 그 값을 취할 확률의 대응 관계로 표시된 것이다.
이산형 확률분포 | 이항분포, 베르누이분포, 기하분포, 포아송분포 등 |
연속형 확률분포 | 정규분포, 지수분포, 연속균일분포,카이제곱분포, F분포, t분포, z분포 등 |
▣ 이산형 확률분포 : 별개의 확률 변수가 몇 개의 한정된 가능한 값을 가지는 분표
베르누이분포 | 모수가 하나이며 서로 반복되는 사건이 일어나는 실험을 반복적 실행을 확률뷴포로 나타낸 것 예 : 동전 던지기 |
이항분포 | 연속적인 베르누이 시행을 n번 반복하여 k번 성공할 확률 분포 예 : 주사위를 10번 던져서 나오는 눈이 5일 확률은? |
기하분포 | 베르누이 시행에서 처음 성공시까지 시도한 횟수 X의 분포 |
포아송분포 | 단위 시간당 또는 단위 공간 내에서 발생하는 사건의 발생 횟수에 대한 확률분포 |
▣ 연속형 확률분포
정규분포 | 평균을 중심으로 좌우 대칭, 종 모양 |
지수분포 | 사건이 서로 독립일 때 다음 사건이 일어날 때까지의 대기 시간은 지수 분포를 따름 |
t분포 | • 표본의 수가 30개 미만일 때 대응책으로 예측범위가 넓은 t분포를 사용함. • 신뢰구간, 가설검정에 사용함. • 두 집단의 평균이 동일한지 알고자 할 때 검정통계량 활용 |
카이제곱 분포 | • 분산의 특징을 확률분포로 만드는 것으로 카이는 평균이 0, 분산이 1인 표준 정규 분포를 의미함. • |
F분포 | • • 카이제곱 분포는 한 집단의 분산, F분포는 두집단의 분산을 다룬다. • 두 집단의 분산 크기가 같은지 다른지 비교하는데 사용함. |
※ 예제 및 기출문제
1. 상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법으로 이질적인 모집단의 원소들로 유사한 것끼리 몇 개의 층으로 나눈 후, 각 계층에서 표본을 랜덤하데 추출하는 표본 추출 방법은 무엇인가?
정답 : 1 - 층화추출법,
'ADsP 데이터 분석 준전문가 자격증' 카테고리의 다른 글
[데이터 분석 - 통계분석] 03. 가설 검증 (0) | 2022.08.26 |
---|---|
[데이터 분석 - 통계분석] 02. 통계적 추론 (0) | 2022.08.26 |
[데이터 이해] 06. 데이터 사이언스 (0) | 2022.08.26 |
[데이터 이해] 05. 빅데이터의 위기요인과 통제방안 (0) | 2022.08.26 |
[데이터 이해] 04. 빅데이터의 이해 (0) | 2022.08.26 |