본문 바로가기

ADsP 데이터 분석 준전문가 자격증

[데이터 분석 기획] 05. KDD 분석 방법론과 CRISP-DM 분석 방법론

KDD & CRISP DM 표지

05. KDD 분석 방법론과 CRISP-DM 분석 방법론

데이터 분석을 효과적으로 기업에 정착하기 위해 데이터 분석을 체계화하는 절차와 방법이 정리된 데이터 분석 방법론이 필요하다. 방법론은 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 있다.

 

KDD 분석 방법론은 데이터에서 의미 있는 통계적 패턴이나 지식을 찾는 데이터 마이닝 프로세스이며 CRISP-DM 분석 방법론은 전 세계에서 가장 많이 사용되는 데이터 마이닝 표준 방법론이다.

 

1. KDD 분석 방법론

데이터셋 선택 분석에 필요한 데이터 선택
데이터 전처리 데이터셋에 포함되어 있는 잡음(Noise), 이상값(Outlier), 결측치(Missing Value)를 식별하고 필요하다면 삭제 및 변환 등의 전처리를 통해 데이터셋을 정제하는 단계
데이터 변환 분석 목적에 맞게 변수를 선택하고 데이터의 차원을 축소하며 데이터마이닝을 진행할 수 있도록 변환하는 단계
데이터마이닝에 필요한 학습데이터셋과 실험데이터셋으로 분리
데이터 마이닝 학습데이터셋을 이용하여 분석 목적에 맞게 데이터마이닝 알고리즘을 선택하여 데이터마이닝을 실행하는 단계
데이터 마이닝
결과 평가
데이터마이닝을 수행한 결과에 대해 해석과 평가를 진행

 

2. CRISP-DM 분석 방법론

업무 이해 비지니스 관점 프로젝트 목적과 요구사항을 이해하기 위한 단계
(세부업무) 업무 목적 파악, 상황 파악, 데이터 마이닝의 목표 설정, 프로젝트 계획 수립
데이터 이해 분석을 위한 데이터를 수집하고 이해하는 단계
(세부업무) 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
데이터 준비 수집한 모든 데이터에서 분석에 용이한 데이터만을 추출하여 편성하는 단계
모델링 다양한 모델링 기법과 알고리즘을 선택하여 모델링 과정을 수행하고 파라미터를 최적해 나가는 단계
(세부업무) 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
평가 수행한 모델링 결과가 과제 목적에 적절한지 평가하는 단계
(세부업무) 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
전개 완성된 모델을 실제 현업에 적용하기 위해 필요한 이행계획을 수립하는 단계

 

 

 

 

※ 예제 및 기출문제

 

1. CRISP-DM의 모델링 구성 내용이 아닌 것은?

① 모델링 기법 선택

② 모델 작성

③ 모델 평가

④ 모델 적용성 평가

 

2. 다음 중 CRISP-DM 방법론의 데이터 이해 단계에 해당하지 않는 것은?

① 초기 데이터 수집

② 데이터 기술 분석

③ 데이터 포맷팅

④ 데이터 품질 확인

 

3. 다음 중 KDD 분석 방법론의 절차 중 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로 적용될 수 있도록 데이터 셋을 변경하는 프로세스 수행 단계는?

① 데이터 셋 선택(추출)

② 데이터 전처리

③ 데이터 변환

④ 데이터 마이닝

 

 

 

 

 

정답 : 1 - ④, 2 - ③, 3 - ③