[ADsP] 1과목 데이터의 이해

1과목 데이터의 이해

▣ 데이터의 정의

데이터는 개별의 데이터 자체로는 의미가 중요하지 않은 객관적인 사실

- 다른 객체와의 상호 관계 속에서 가치를 가짐

▣ 데이터의 유형

① 정성적 데이터(Qualitative Data) - 언어, 문자로 기술

예: 설문지의 주관식 응답, SNS에 올린 글, 기상 특보

- 비정형 데이터로 저장되며, 분석에 시간과 비용이 필요함.

② 정량적 데이터(Quantitative Data) - 수치, 기호, 도형으로 표시

예: 지역별 온도, 풍속, 강우량

- 데이터 양이 증가하더라도 저장, 분석이 용이함

※ 지식경영이란?

☞ 개인의 암묵지와 집단에서의 형식지가 나선형의 형태로 회전하면서 생성, 발전, 전환되는 지식의 발전을 기반으로 한 기업의 영역

▣ 암묵지, 형식지

☞ Polanyi에 의해 구분된 지식의 차원

① 암묵지 - 학습과 체험을 통해 개인에게 습득

예 : 김장 담그기, 자전거 타기

② 형식지 - 교과서, 매뉴얼, 비디오, DB 등으로 형상화된 지식

예 : 회계, 재무 관련 대차대조표에 요구되는 지식의 매뉴얼

▣ 암묵지와 형식지의 상호 작용(지식 형성의 중요한 기초)

① 공통화(Socialization) - 암묵적인 지식 노하우를 다른 사람에게 알려주는 것

② 표출화(Externaliztion) - 개인의 내재된 경험(암묵지)을 언어나 기호, 숫자 등의 형태로 책이나 교본 등의 형식지로 만드는 것

③ 연결화(Combination) - 책이나 교본 등의 형식지에 자신이 알고 있는 본인의 지식(형식지)을 추가하는 것

④ 내면화(Internalization) - 만들어진 책이나 교본(형식지)을 보고 개인이 암묵적 지식을 습득하는 과정

▣ 데이터와 정보의 관계(DIKW)

① 데이터(Data) : 가공하기 전의 순수한 수치나 기호 그 자체로, 데이터 자체로는 의미가 중요하지 않은 객관적인 사실

예: A마트는 100원, B마트는 200원에 볼펜을 판매

② 정보(Information) : 데이터의 가공, 처리와 데이터 간의 연관관계 속에서 의미가 도출된 것. 도출한 의미가 아직 유용하지 않을 수 있음

예: A마트의 볼펜이 더 싸다.

③ 지식(Knowledge) : 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결함 하여 고유의 지식으로 내재화한 것

예: 상대적으로 저렴한 A마트에서 연필을 사야겠다.

④ 지혜(Wisdom) : 지식의 축적과 아이디어가 결함 된 창의적 산물

예: 다른 물품도 A마트가 더 저렴할 것이다.

2. 데이터베이스의 정의와 활용

▣ 데이터베이스의 특징

1) 일반적인 특징

☞ 데이터베이스는 통합, 저장, 공용, 변화되는 데이터를 특징으로 함.

① 통합된 데이터(integrated data) - 동일한 내용의 데이터가 중복되어 있지 않음.

② 저장된 데이터(stored data) - 컴퓨터가 접근할 수 있는 저장 매체(자기 디스크, 자기 테이프)에 저장됨.

③ 공용 데이터(shared data) - 여러 사용자에게 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용.

④ 변화되는 데이터(changeable data) - 새로운 데이터의 추가, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지.

2) 정보 이용 및 전달 측면

- 기계 가독성, 검색 가능성, 원격 조작성

3) 정보 이용 측면

- 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음

4) 정보관리 측면

- 정보를 일정한 질서와 구조에 따라 정리∙저장하고 검색∙관리할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이

5) 정보기술 발전의 측면

- 정보처리, 검색∙관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있음

6) 경제∙산업적 측면

- 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써 의미를 가짐

▣ 데이터베이스 관리 시스템(DBMS, DataBase Management System)

☞ 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어

▣ 데이터베이스 관리 시스템의 종류

① 관계형 데이터베이스 관리 시스템(RBDMS)

- 정형화된 열과 행으로 구성되는 하나 이상의 테이블로 구성

- 테이블에서 기본키 Primary Key)로 각 행을 식별함

예 : 오라클, Access, MySQL, MSSQL

② 객체지향 데이터베이스 관리 시스템(ODBMS)

- 정보를 객체 형태로 표현하는 데이터 베이스 모델, 오브젝트(Object) 데이터베이스라고도 부름

- 복잡한 데이터의 구조를 표현 및 관리하는 DBMS

: 객체들을 생성하여 계층에서 체계적으로 정리하고, 다시 계층들을 상위 계층으로부터 속성과 방법을 물려받을 수 있는 DBMS

- 이미지 및 동영상 저장에 적합

▣ NoSQL(Non-SQL, Non-Relational, Not Olny SQL)

☞ 관계형 데이터베이스보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 메커니즘 제공, 디자인 단순화, 수평적 확장성, 세세한 통제 등을 포함.

- 기존의 RDMS가 갖고 있는 특성뿐만 아니라 다른 특성들을 부가적으로 지원함.

예 : MongoDB, Apache HBase, Redis

▣ SQL(Structured Query Langage)

☞ 데이터베이스에 접근할 수 있는 데이터베이스 언어

- RDBMS의 데이터를 관리하기 위해서 설계된 특수 목적의 프로그래밍 언어(챔벌린과 보이스에 의해 개발)

▣ 데이터베이스의 특성 5가지

1) 정보 축정 및 전달 측면 : 기계 가동성, 검색 가능성, 원격 조작성

2) 정보 이용 측면 : 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득하고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음

3) 정보 관리 측면 : 방대한 양의 정보를 체계적으로 축적할 수 있고 새로운 내용 추가나 갱신이 용이함

4) 정보기술 발전의 측면 : 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견임

5) 경제/산업적 측면 : 경제, 산업, 사회 활동의 효율성을 재고하고 국민의 편의를 증진하는 수단

▣ 데이터베이스 관련 용어 정리

☞ 메타데이터(metadata)

- 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터

☞ 인덱스(index)

- 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조

☞ 스키마(schema)

- 데이터베이스의 구조와 제약 조건에 관해 전반적인 명세를 기술한 것

☞ 트리거(triger)

- 어느 특정한 동작에 반응해 자동으로 필요한 동작을 실행하는 것

☞ 데이터 사전(data dictionary)

- 자료에 대한 정보를 모아 두는 저장소

- 자료의 이름, 표현 방식, 자료의 의미와 사용 방식, 그리고 다른 자료와의 관계를 저장함

▣ 1980년대 기업 내부 데이터베이스 솔루션

① 온라인 거래 처리(OLTP, On-Line Transation Processing)

- 주 컴퓨터와 통신회선으로 접속되어 있는 복수의 사용자 단말에서 발생한 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 사용자에게 되돌려 보내 주는 처리 형태

예 : 상품 주문, 회원정보 수정

② 온라인 분석 처리(OLAP, On-Line Analytical Processing)

- 다차원으로 이루어진 데이터로부터 통계적 요약 정보를 제공할 수 있는 기술, 다차원의 데이터를 대화식으로 분석하기 위한 SW

예 : 10년간 A사의 직급별 임금 상승률

▣ 2000년대 기업 내부 데이터베이스 솔루션

① CRM(Customer Relationship Management)

- 고객별 구매 이력을 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 통해 보다 높은 이익을 창출할 수 있는 솔루션

② SCM(Supply Chain Management)

- 제조, 물류, 유통업체 등 유통 공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보 기술(Information Technology)을 활용, 재고를 최적화하는 솔루션

- 시간과 비용을 최적화시키기 위한 것

③ ERP(Enterprise Resource Planning)

- 인사, 재무, 생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영 자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영 혁신 기법

④ BI(Business Intelligence)

- 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사 결정에 활용하는 일련의 프로세스, 리포트 지원

⑤ RTE (Real Time Enterprise)

- 회사의 주용 경영 정보를 통합, 관리하는 새로운 실시간 기업 경영 시스템

▣ 데이터베이스의 설계 절차

요구조건 분석 ▶ 개념적 설계 ▶ 논리적 설계 ▶ 물리적 설계

3. 빅데이터의 이해

▣ 빅데이터의 정의

- 단순히 용량만 방대한 것이 아니라 복잡성도 증가해 기존 데이터 처리 애플리케이션이나 관리 툴(tool)로는 다루기 어려운 데이터 세트의 집합

① 데이터의 변화

- 규모(Volume)

* 데이터의 양의 단위

: 기가바이트(GB) < 테라바이트(TB) < 페타바이트(PB) < 엑사바이트(EB) < 제타바이트(ZB) < 요타바이트(YB)

- 다양성(Variety)

- 속도(Velocity)

② 기술의 변화

- 새로운 데이터 처리, 저장, 분석 기술 및 아키텍처

- 클라우드 컴퓨팅

③ 인재, 조직 변화

- Data Scientist 같은 새로운 인재 필요

- 데이터 중심 조직

▣ 빅데이터가 만들어 내는 본질적인 변화

① 사전 처리 → 사후 처리

② 표본 조사 → 전수 조사

③ 질 → 양

④ 인과 관계 → 상관관계

▣ 빅데이터의 가치 선정이 어려운 이유

① 데이터 활용 : 특정 데이터를 언제, 어디서, 누가 사용할지 알 수 없음

② 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 가치의 측정이 어려움

③ 분석 기술의 발전 : 클라우드 분산 컴퓨터와 새로운 분석 기법의 등장으로 가치가 없는 데이터도 거대한 가치를 만들어내는 재료가 될 가능성이 높아짐.

4. 빅데이터 비즈니스 모델

▣ 빅데이터 활용 기본 테크닉(7가지)

ⓛ 연관 규칙 학습 (Association rule learning)

☞ 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
예: A를 구매한 사람이 B를 더 많이 사는가?

② 유형 분석 (Classification tree analysis)

☞ 새로운 사건이 속하게 될 범주를 찾아내는 방법
예: 이 사용자가 어떤 특성을 가진 집단에 속하는가?

③ 유전 알고리즘 (Genetic algorithms)

☞ 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
예: 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송

④ 기계 학습 (Machine learning)

☞ 훈련 데이터로부터 학습한 알려진 특성을 활용해 ‘예측’하는데 초점
예: 기존 시청기록을 바탕으로 시청자는 보유한 영화 중 어떤 영화를 가장 보고 싶어 하는가?

⑤ 회귀분석 (Regression analysis)

☞ 독립변수를 조작하며, 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악
예: 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

⑥ 감정분석 (Sentiment analysis)

☞ 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
예: 새로운 환불 정책에 대한 고객의 평가는 어떤가?

⑦ 소셜 네트워크 분석 (Social network analysis)

☞ 오피니언 리더, 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객들 간 소셜 관계를 파악
예: 특정인과 다른 사람이 몇 촌 정도의 관계인가?

5. 빅데이터 위기 요인과 통제 방안

▣ 위기 요인

① 사생활 침해

② 책임 원칙 훼손

③ 데이터 오용

▣ 통제 방안

① 사생활 침해 → 동의에서 책임으로

- 개인정보 사용자의 책임

② 책임 원칙 훼손 → 결과 기반 책임 원칙 고수

③ 데이터 오용 → 알고리즘 접근 허용

- 알고리즈미스트 대두됨

▣ 익명화 기술(개인정보 비식별화 기술)

① 데이터 마스킹

- 데이터의 길이 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성

② 가명 처리

- 개인 정보 주체의 이름을 다른 이름으로 변경

③ 총계 처리

- 데이터의 통합 값을 보임으로 개별 데이터의 값을 보이지 않도록 함

④ 데이터 값 삭제

- 데이터의 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인 식별에 중요한 값을 삭제

⑤ 데이터 범주화

- 데이터의 값을 범주의 값으로 변환하여 값을 숨김

6. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

▣ 빅데이터 활용에 필요한 기본 3요소

① 데이터 : 모든 것의 데이터화

② 기술

③ 인력

- 데이터 사이언티스트 : 수학, 통계, 경제학, 컴퓨터 공학 등의 전문지식을 가지고 실무에서 활용할 수 있는 전문가

- 알고리즈미스트(Algorithmist)

: 알고리즘을 해석하여 알고리즘에서 비롯된 피해를 파악하고 구제하는 일을 하는 전문가

▣ 데이터 사이언스

☞ 데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당분야의 전문 지식을 종합하는 학문

• 데이터 처리와 관련된 IT 영역, 분석적 영역, 비즈니스 컨설팅 영역을 포괄

▣ 데이터 사이언스의 구성요소
① 분석적 영역(Analytics) : 수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
② IT 영역 (Data Management) : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등
③ 비즈니스 분석 : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등

▣ 데이터 사이언티스트의 요구 역량

• 하드 스킬(hard skill) : 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
• 소프트 스킬(soft skill) : 통찰력 있는 분석, 설득력 있는 전달, 다분야간 협력

▣ 데이터 웨어하우스(Data Warehouse)의 정의

☞ 사용자의 의사 결정에 도움을 주기 위해서 기간시스템에 축적된 데이터를 공통의 형식으로 변환(정제 및 가공처리)해서 관리하는 데이터베이스

☞ 데이터 웨어하우스의 특성(4가지)

① 주제 지향성

② 통합성

③ 시계열성

④ 비휘발성(nonvolatilization)

▣ 데이터 레이크(Data Lake)

현재 정의된 목적이 없는 비정형 원시 데이터를 저장

▣ 데이터 마이닝(Data Mining)

☞ 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정

• 통계학에서 발전한 데이터 마이닝 기법

- 탐색적 자료 분석, 가설 검증, 다변량 분석, 시계열 분석, 일반선형 모형

• 데이터베이스에서 발전한 데이터 마이닝 기법

- OLAP(온라인 분석 처리)

• 인공지능 영역에서 발전한 데이터 마이닝 기법

- SOM, 신경망, 전문가 시스템

저작자표시 (새창열림)

'ADsP 데이터 분석 준전문가 자격증' 카테고리의 다른 글

[데이터 분석 기획] 04. 분석 방법론 (0)	2022.08.23
[데이터 분석 기획] 03. 분석 기획 시 고려 사항 (0)	2022.08.23
[데이터 분석 기획] 02. 목표 시점별 분석 기획 방안 (0)	2022.08.23
[데이터 분석 기획] 01. 분석 대상과 방법에 따른 주제 유형 (0)	2022.08.23
[ADsP] 2과목 데이터 분석 기획 (0)	2022.07.16

디지털 플레이

[ADsP] 1과목 데이터의 이해

1과목 데이터의 이해

2. 데이터베이스의 정의와 활용

3. 빅데이터의 이해

4. 빅데이터 비즈니스 모델

5. 빅데이터 위기 요인과 통제 방안

6. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

'ADsP 데이터 분석 준전문가 자격증' 카테고리의 다른 글

티스토리툴바

[ADsP] 1과목 데이터의 이해

1과목 데이터의 이해

2. 데이터베이스의 정의와 활용

3. 빅데이터의 이해

4. 빅데이터 비즈니스 모델

5. 빅데이터 위기 요인과 통제 방안

6. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

'ADsP 데이터 분석 준전문가 자격증' 카테고리의 다른 글

'ADsP 데이터 분석 준전문가 자격증' Related Articles

티스토리툴바