본문 바로가기

ADsP 데이터 분석 준전문가 자격증

[ADsP] 1과목 데이터의 이해

데이터의 이해

1과목 데이터의 이해

▣ 데이터의 정의

데이터는 개별의 데이터 자체로는 의미가 중요하지 않은 객관적인 사실

- 다른 객체와의 상호 관계 속에서 가치를 가짐

 

▣ 데이터의 유형

① 정성적 데이터(Qualitative Data) - 언어, 문자로 기술

예: 설문지의 주관식 응답, SNS에 올린 글, 기상 특보

- 비정형 데이터로 저장되며, 분석에 시간과 비용이 필요함.

② 정량적 데이터(Quantitative Data) - 수치, 기호, 도형으로 표시

예: 지역별 온도, 풍속, 강우량

- 데이터 양이 증가하더라도 저장, 분석이 용이함

 

※ 지식경영이란?

☞ 개인의 암묵지와 집단에서의 형식지가 나선형의 형태로 회전하면서 생성, 발전, 전환되는 지식의 발전을 기반으로 한 기업의 영역

 

▣ 암묵지, 형식지

☞ Polanyi에 의해 구분된 지식의 차원

 암묵지 - 학습과 체험을 통해 개인에게 습득

예 : 김장 담그기, 자전거 타기

 형식지 - 교과서, 매뉴얼, 비디오, DB 등으로 형상화된 지식    

예 : 회계, 재무 관련 대차대조표에 요구되는 지식의 매뉴얼

 

▣ 암묵지와 형식지의 상호 작용(지식 형성의 중요한 기초)

공통화(Socialization) - 암묵적인 지식 노하우를 다른 사람에게 알려주는 것

표출화(Externaliztion) - 개인의 내재된 경험(암묵지)을 언어나 기호, 숫자 등의 형태로 책이나 교본 등의 형식지로 만드는 것

연결화(Combination) - 책이나 교본 등의 형식지에 자신이 알고 있는 본인의 지식(형식지)을 추가하는 것

내면화(Internalization) - 만들어진 책이나 교본(형식지)을 보고 개인이 암묵적 지식을 습득하는 과정

 

▣ 데이터와 정보의 관계(DIKW)

데이터(Data) : 가공하기 전의 순수한 수치나 기호 그 자체로, 데이터 자체로는 의미가 중요하지 않은 객관적인 사실

예: A마트는 100원, B마트는 200원에 볼펜을 판매

정보(Information) : 데이터의 가공, 처리와 데이터 간의 연관관계 속에서 의미가 도출된 것. 도출한 의미가 아직 유용하지 않을 수 있음

예: A마트의 볼펜이 더 싸다. 

지식(Knowledge) : 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결함 하여 고유의 지식으로 내재화한 것

예: 상대적으로 저렴한 A마트에서 연필을 사야겠다.

지혜(Wisdom) : 지식의 축적과 아이디어가 결함 된 창의적 산물

예: 다른 물품도 A마트가 더 저렴할 것이다.

 

2. 데이터베이스의 정의와 활용

▣ 데이터베이스의 특징

1) 일반적인 특징

☞ 데이터베이스는 통합, 저장, 공용, 변화되는 데이터를 특징으로 함.

① 통합된 데이터(integrated data) - 동일한 내용의 데이터가 중복되어 있지 않음.

② 저장된 데이터(stored data) - 컴퓨터가 접근할 수 있는 저장 매체(자기 디스크, 자기 테이프)에 저장됨.

 공용 데이터(shared data) - 여러 사용자에게 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용.

 변화되는 데이터(changeable data) - 새로운 데이터의 추가, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지.

2) 정보 이용 및 전달 측면

- 기계 가독성, 검색 가능성, 원격 조작성

3) 정보 이용 측면

- 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음

4) 정보관리 측면

- 정보를 일정한 질서와 구조에 따라 정리∙저장하고 검색∙관리할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이

5)  정보기술 발전의 측면

- 정보처리, 검색∙관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있음

6) 경제∙산업적 측면

- 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써 의미를 가짐

 

▣ 데이터베이스 관리 시스템(DBMS, DataBase Management System)

☞ 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어

 

▣ 데이터베이스 관리 시스템의 종류

관계형 데이터베이스 관리 시스템(RBDMS)

 - 정형화된 열과 행으로 구성되는 하나 이상의 테이블로 구성

 - 테이블에서 기본키 Primary Key)로 각 행을 식별함

예 : 오라클, Access, MySQL, MSSQL 

객체지향 데이터베이스 관리 시스템(ODBMS)

 - 정보를 객체 형태로 표현하는 데이터 베이스 모델, 오브젝트(Object) 데이터베이스라고도 부름

 - 복잡한 데이터의  구조를 표현 및 관리하는 DBMS

    : 객체들을 생성하여 계층에서 체계적으로 정리하고, 다시 계층들을 상위 계층으로부터 속성과 방법을 물려받을 수 있는 DBMS

 - 이미지 및 동영상 저장에 적합

 

▣ NoSQL(Non-SQL, Non-Relational, Not Olny SQL)

☞ 관계형 데이터베이스보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 메커니즘 제공, 디자인 단순화, 수평적 확장성, 세세한 통제 등을 포함.

- 기존의 RDMS가 갖고 있는 특성뿐만 아니라 다른 특성들을 부가적으로 지원함.

예 : MongoDB, Apache HBase, Redis

 

▣ SQL(Structured Query Langage)

☞ 데이터베이스에 접근할 수 있는 데이터베이스 언어

- RDBMS의 데이터를 관리하기 위해서 설계된 특수 목적의 프로그래밍 언어(챔벌린과 보이스에 의해 개발)

 

▣ 데이터베이스의 특성 5가지

 1) 정보 축정 및 전달 측면 : 기계 가동성, 검색 가능성, 원격 조작성

 2) 정보 이용 측면 : 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득하고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음

 3) 정보 관리 측면 : 방대한 양의 정보를 체계적으로 축적할 수 있고 새로운 내용 추가나 갱신이 용이함

 4) 정보기술 발전의 측면 : 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견임

 5) 경제/산업적 측면 : 경제, 산업, 사회 활동의 효율성을 재고하고 국민의 편의를 증진하는 수단

 

▣ 데이터베이스 관련 용어 정리

☞ 메타데이터(metadata)

- 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터

☞ 인덱스(index)

- 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조

☞ 스키마(schema)

- 데이터베이스의 구조와 제약 조건에 관해 전반적인 명세를 기술한 것

☞ 트리거(triger)

- 어느 특정한 동작에 반응해 자동으로 필요한 동작을 실행하는 것

☞ 데이터 사전(data dictionary)

- 자료에 대한 정보를 모아 두는 저장소

- 자료의 이름, 표현 방식, 자료의 의미와 사용 방식, 그리고 다른 자료와의 관계를 저장함

 

▣ 1980년대 기업 내부 데이터베이스 솔루션

① 온라인 거래 처리(OLTP, On-Line Transation Processing)

 - 주 컴퓨터와 통신회선으로 접속되어 있는 복수의 사용자 단말에서 발생한 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 사용자에게 되돌려 보내 주는 처리 형태

 예 : 상품 주문, 회원정보 수정

② 온라인 분석 처리(OLAP, On-Line Analytical Processing)

 - 다차원으로 이루어진 데이터로부터 통계적 요약 정보를 제공할 수 있는 기술, 다차원의 데이터를 대화식으로 분석하기 위한 SW

 예 : 10년간 A사의 직급별 임금 상승률

 

▣ 2000년대 기업 내부 데이터베이스 솔루션

CRM(Customer Relationship Management)

 - 고객별 구매 이력을 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 통해 보다 높은 이익을 창출할 수 있는 솔루션

SCM(Supply Chain Management)

- 제조, 물류, 유통업체 등 유통 공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보 기술(Information Technology)을 활용, 재고를 최적화하는 솔루션

- 시간과 비용을 최적화시키기 위한 것

③ ERP(Enterprise Resource Planning)

- 인사, 재무, 생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영 자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영 혁신 기법  

④ BI(Business Intelligence)

- 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사 결정에 활용하는 일련의 프로세스, 리포트 지원

⑤ RTE (Real Time Enterprise)

- 회사의 주용 경영 정보를 통합, 관리하는 새로운 실시간 기업 경영 시스템

 

▣ 데이터베이스의 설계 절차

요구조건 분석 ▶ 개념적 설계 ▶ 논리적 설계 ▶ 물리적 설계

 

3. 빅데이터의 이해

▣ 빅데이터의 정의

- 단순히 용량만 방대한 것이 아니라 복잡성도 증가해 기존 데이터 처리 애플리케이션이나 관리 툴(tool)로는 다루기 어려운 데이터 세트의 집합

① 데이터의 변화

 - 규모(Volume)

 * 데이터의 양의 단위

 : 기가바이트(GB) < 테라바이트(TB) < 페타바이트(PB) < 엑사바이트(EB) < 제타바이트(ZB) < 요타바이트(YB)

 - 다양성(Variety)

 - 속도(Velocity)

② 기술의 변화

 - 새로운 데이터 처리, 저장, 분석 기술 및 아키텍처

 - 클라우드 컴퓨팅

③ 인재, 조직 변화

 - Data Scientist 같은 새로운 인재 필요

 - 데이터 중심 조직

 

▣ 빅데이터가 만들어 내는 본질적인 변화

① 사전 처리 → 사후 처리

② 표본 조사 전수 조사

③ 질  양

④ 인과 관계   상관관계

 

▣ 빅데이터의 가치 선정이 어려운 이유

① 데이터 활용 : 특정 데이터를 언제, 어디서, 누가 사용할지 알 수 없음

② 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 가치의 측정이 어려움

③ 분석 기술의 발전 : 클라우드 분산 컴퓨터와 새로운 분석 기법의 등장으로 가치가 없는 데이터도 거대한 가치를 만들어내는 재료가 될 가능성이 높아짐.

 

4. 빅데이터 비즈니스 모델

▣ 빅데이터 활용 기본 테크닉(7가지)

연관 규칙 학습 (Association rule learning)

☞ 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
예: A를 구매한 사람이 B를 더 많이 사는가?

유형 분석 (Classification tree analysis)

☞ 새로운 사건이 속하게 될 범주를 찾아내는 방법
예: 이 사용자가 어떤 특성을 가진 집단에 속하는가?

유전 알고리즘 (Genetic algorithms)

☞ 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
예: 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송

기계 학습 (Machine learning)

☞ 훈련 데이터로부터 학습한 알려진 특성을 활용해 ‘예측’하는데 초점
예: 기존 시청기록을 바탕으로 시청자는 보유한 영화 중 어떤 영화를 가장 보고 싶어 하는가?

회귀분석 (Regression analysis)

☞ 독립변수를 조작하며, 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악
예: 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

⑥ 감정분석 (Sentiment analysis)

☞ 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
예: 새로운 환불 정책에 대한 고객의 평가는 어떤가?

소셜 네트워크 분석 (Social network analysis)

☞ 오피니언 리더, 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객들 간 소셜 관계를 파악
예: 특정인과 다른 사람이 몇 촌 정도의 관계인가?

 

5. 빅데이터 위기 요인과  통제 방안

▣ 위기 요인

① 사생활 침해

② 책임 원칙 훼손

③ 데이터 오용

 

▣ 통제 방안

① 사생활 침해 → 동의에서 책임으로

- 개인정보 사용자의 책임

② 책임 원칙 훼손 → 결과 기반 책임 원칙 고수

③ 데이터 오용  알고리즘 접근 허용

- 알고리즈미스트 대두됨

 

▣ 익명화 기술(개인정보 비식별화 기술)

① 데이터 마스킹

- 데이터의 길이 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성

② 가명 처리

- 개인 정보 주체의 이름을 다른 이름으로 변경

③ 총계 처리

- 데이터의 통합 값을 보임으로 개별 데이터의 값을 보이지 않도록 함

④ 데이터 값 삭제

- 데이터의 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인 식별에 중요한 값을 삭제

⑤ 데이터 범주화

- 데이터의 값을 범주의 값으로 변환하여 값을 숨김

 

6. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

▣  빅데이터 활용에 필요한 기본 3요소

① 데이터 : 모든 것의 데이터화

② 기술

③ 인력

- 데이터 사이언티스트 : 수학, 통계, 경제학, 컴퓨터 공학 등의 전문지식을 가지고 실무에서 활용할 수 있는 전문가

- 알고리즈미스트(Algorithmist)

: 알고리즘을 해석하여 알고리즘에서 비롯된 피해를 파악하고 구제하는 일을 하는 전문가

 

▣  데이터 사이언스

☞ 데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당분야의 전문 지식을 종합하는 학문

• 데이터 처리와 관련된 IT 영역, 분석적 영역, 비즈니스 컨설팅 영역을 포괄

 

▣  데이터 사이언스의 구성요소
① 분석적 영역(Analytics) : 수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
② IT 영역 (Data Management) : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등
③ 비즈니스 분석 : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등


▣ 데이터 사이언티스트의 요구 역량

• 하드 스킬(hard skill) : 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
• 소프트 스킬(soft skill) : 통찰력 있는 분석, 설득력 있는 전달, 다분야간 협력

 

▣ 데이터 웨어하우스(Data Warehouse)의 정의

☞ 사용자의 의사 결정에 도움을 주기 위해서 기간시스템에 축적된 데이터를 공통의 형식으로 변환(정제 및 가공처리)해서 관리하는 데이터베이스

☞ 데이터 웨어하우스의 특성(4가지)

① 주제 지향성

② 통합성

③ 시계열성

④ 비휘발성(nonvolatilization)

 

▣ 데이터 레이크(Data Lake)

현재 정의된 목적이 없는 비정형 원시 데이터를 저장

 

▣ 데이터 마이닝(Data Mining)

☞ 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정

• 통계학에서 발전한 데이터 마이닝 기법

 - 탐색적 자료 분석, 가설 검증, 다변량 분석, 시계열 분석, 일반선형 모형

• 데이터베이스에서 발전한 데이터 마이닝 기법

 -  OLAP(온라인 분석 처리)

• 인공지능 영역에서 발전한 데이터 마이닝 기법

 - SOM, 신경망, 전문가 시스템