1과목 데이터의 이해
▣ 데이터의 정의
데이터는 개별의 데이터 자체로는 의미가 중요하지 않은 객관적인 사실
- 다른 객체와의 상호 관계 속에서 가치를 가짐
▣ 데이터의 유형
① 정성적 데이터(Qualitative Data) - 언어, 문자로 기술
예: 설문지의 주관식 응답, SNS에 올린 글, 기상 특보
- 비정형 데이터로 저장되며, 분석에 시간과 비용이 필요함.
② 정량적 데이터(Quantitative Data) - 수치, 기호, 도형으로 표시
예: 지역별 온도, 풍속, 강우량
- 데이터 양이 증가하더라도 저장, 분석이 용이함
※ 지식경영이란?
☞ 개인의 암묵지와 집단에서의 형식지가 나선형의 형태로 회전하면서 생성, 발전, 전환되는 지식의 발전을 기반으로 한 기업의 영역
▣ 암묵지, 형식지
☞ Polanyi에 의해 구분된 지식의 차원
① 암묵지 - 학습과 체험을 통해 개인에게 습득
예 : 김장 담그기, 자전거 타기
② 형식지 - 교과서, 매뉴얼, 비디오, DB 등으로 형상화된 지식
예 : 회계, 재무 관련 대차대조표에 요구되는 지식의 매뉴얼
▣ 암묵지와 형식지의 상호 작용(지식 형성의 중요한 기초)
① 공통화(Socialization) - 암묵적인 지식 노하우를 다른 사람에게 알려주는 것
② 표출화(Externaliztion) - 개인의 내재된 경험(암묵지)을 언어나 기호, 숫자 등의 형태로 책이나 교본 등의 형식지로 만드는 것
③ 연결화(Combination) - 책이나 교본 등의 형식지에 자신이 알고 있는 본인의 지식(형식지)을 추가하는 것
④ 내면화(Internalization) - 만들어진 책이나 교본(형식지)을 보고 개인이 암묵적 지식을 습득하는 과정
▣ 데이터와 정보의 관계(DIKW)
① 데이터(Data) : 가공하기 전의 순수한 수치나 기호 그 자체로, 데이터 자체로는 의미가 중요하지 않은 객관적인 사실
예: A마트는 100원, B마트는 200원에 볼펜을 판매
② 정보(Information) : 데이터의 가공, 처리와 데이터 간의 연관관계 속에서 의미가 도출된 것. 도출한 의미가 아직 유용하지 않을 수 있음
예: A마트의 볼펜이 더 싸다.
③ 지식(Knowledge) : 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결함 하여 고유의 지식으로 내재화한 것
예: 상대적으로 저렴한 A마트에서 연필을 사야겠다.
④ 지혜(Wisdom) : 지식의 축적과 아이디어가 결함 된 창의적 산물
예: 다른 물품도 A마트가 더 저렴할 것이다.
2. 데이터베이스의 정의와 활용
▣ 데이터베이스의 특징
1) 일반적인 특징
☞ 데이터베이스는 통합, 저장, 공용, 변화되는 데이터를 특징으로 함.
① 통합된 데이터(integrated data) - 동일한 내용의 데이터가 중복되어 있지 않음.
② 저장된 데이터(stored data) - 컴퓨터가 접근할 수 있는 저장 매체(자기 디스크, 자기 테이프)에 저장됨.
③ 공용 데이터(shared data) - 여러 사용자에게 서로 다른 목적으로 데이터베이스의 데이터를 공동으로 이용.
④ 변화되는 데이터(changeable data) - 새로운 데이터의 추가, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지.
2) 정보 이용 및 전달 측면
- 기계 가독성, 검색 가능성, 원격 조작성
3) 정보 이용 측면
- 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음
4) 정보관리 측면
- 정보를 일정한 질서와 구조에 따라 정리∙저장하고 검색∙관리할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신이 용이
5) 정보기술 발전의 측면
- 정보처리, 검색∙관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있음
6) 경제∙산업적 측면
- 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단으로써 의미를 가짐
▣ 데이터베이스 관리 시스템(DBMS, DataBase Management System)
☞ 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어
▣ 데이터베이스 관리 시스템의 종류
① 관계형 데이터베이스 관리 시스템(RBDMS)
- 정형화된 열과 행으로 구성되는 하나 이상의 테이블로 구성
- 테이블에서 기본키 Primary Key)로 각 행을 식별함
예 : 오라클, Access, MySQL, MSSQL
② 객체지향 데이터베이스 관리 시스템(ODBMS)
- 정보를 객체 형태로 표현하는 데이터 베이스 모델, 오브젝트(Object) 데이터베이스라고도 부름
- 복잡한 데이터의 구조를 표현 및 관리하는 DBMS
: 객체들을 생성하여 계층에서 체계적으로 정리하고, 다시 계층들을 상위 계층으로부터 속성과 방법을 물려받을 수 있는 DBMS
- 이미지 및 동영상 저장에 적합
▣ NoSQL(Non-SQL, Non-Relational, Not Olny SQL)
☞ 관계형 데이터베이스보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 메커니즘 제공, 디자인 단순화, 수평적 확장성, 세세한 통제 등을 포함.
- 기존의 RDMS가 갖고 있는 특성뿐만 아니라 다른 특성들을 부가적으로 지원함.
예 : MongoDB, Apache HBase, Redis
▣ SQL(Structured Query Langage)
☞ 데이터베이스에 접근할 수 있는 데이터베이스 언어
- RDBMS의 데이터를 관리하기 위해서 설계된 특수 목적의 프로그래밍 언어(챔벌린과 보이스에 의해 개발)
▣ 데이터베이스의 특성 5가지
1) 정보 축정 및 전달 측면 : 기계 가동성, 검색 가능성, 원격 조작성
2) 정보 이용 측면 : 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득하고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음
3) 정보 관리 측면 : 방대한 양의 정보를 체계적으로 축적할 수 있고 새로운 내용 추가나 갱신이 용이함
4) 정보기술 발전의 측면 : 정보처리, 검색/관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전을 견임
5) 경제/산업적 측면 : 경제, 산업, 사회 활동의 효율성을 재고하고 국민의 편의를 증진하는 수단
▣ 데이터베이스 관련 용어 정리
☞ 메타데이터(metadata)
- 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터
☞ 인덱스(index)
- 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조
☞ 스키마(schema)
- 데이터베이스의 구조와 제약 조건에 관해 전반적인 명세를 기술한 것
☞ 트리거(triger)
- 어느 특정한 동작에 반응해 자동으로 필요한 동작을 실행하는 것
☞ 데이터 사전(data dictionary)
- 자료에 대한 정보를 모아 두는 저장소
- 자료의 이름, 표현 방식, 자료의 의미와 사용 방식, 그리고 다른 자료와의 관계를 저장함
▣ 1980년대 기업 내부 데이터베이스 솔루션
① 온라인 거래 처리(OLTP, On-Line Transation Processing)
- 주 컴퓨터와 통신회선으로 접속되어 있는 복수의 사용자 단말에서 발생한 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 사용자에게 되돌려 보내 주는 처리 형태
예 : 상품 주문, 회원정보 수정
② 온라인 분석 처리(OLAP, On-Line Analytical Processing)
- 다차원으로 이루어진 데이터로부터 통계적 요약 정보를 제공할 수 있는 기술, 다차원의 데이터를 대화식으로 분석하기 위한 SW
예 : 10년간 A사의 직급별 임금 상승률
▣ 2000년대 기업 내부 데이터베이스 솔루션
① CRM(Customer Relationship Management)
- 고객별 구매 이력을 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 통해 보다 높은 이익을 창출할 수 있는 솔루션
② SCM(Supply Chain Management)
- 제조, 물류, 유통업체 등 유통 공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보 기술(Information Technology)을 활용, 재고를 최적화하는 솔루션
- 시간과 비용을 최적화시키기 위한 것
③ ERP(Enterprise Resource Planning)
- 인사, 재무, 생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영 자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영 혁신 기법
④ BI(Business Intelligence)
- 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사 결정에 활용하는 일련의 프로세스, 리포트 지원
⑤ RTE (Real Time Enterprise)
- 회사의 주용 경영 정보를 통합, 관리하는 새로운 실시간 기업 경영 시스템
▣ 데이터베이스의 설계 절차
요구조건 분석 ▶ 개념적 설계 ▶ 논리적 설계 ▶ 물리적 설계
3. 빅데이터의 이해
▣ 빅데이터의 정의
- 단순히 용량만 방대한 것이 아니라 복잡성도 증가해 기존 데이터 처리 애플리케이션이나 관리 툴(tool)로는 다루기 어려운 데이터 세트의 집합
① 데이터의 변화
- 규모(Volume)
* 데이터의 양의 단위
: 기가바이트(GB) < 테라바이트(TB) < 페타바이트(PB) < 엑사바이트(EB) < 제타바이트(ZB) < 요타바이트(YB)
- 다양성(Variety)
- 속도(Velocity)
② 기술의 변화
- 새로운 데이터 처리, 저장, 분석 기술 및 아키텍처
- 클라우드 컴퓨팅
③ 인재, 조직 변화
- Data Scientist 같은 새로운 인재 필요
- 데이터 중심 조직
▣ 빅데이터가 만들어 내는 본질적인 변화
① 사전 처리 → 사후 처리
② 표본 조사 → 전수 조사
③ 질 → 양
④ 인과 관계 → 상관관계
▣ 빅데이터의 가치 선정이 어려운 이유
① 데이터 활용 : 특정 데이터를 언제, 어디서, 누가 사용할지 알 수 없음
② 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 가치의 측정이 어려움
③ 분석 기술의 발전 : 클라우드 분산 컴퓨터와 새로운 분석 기법의 등장으로 가치가 없는 데이터도 거대한 가치를 만들어내는 재료가 될 가능성이 높아짐.
4. 빅데이터 비즈니스 모델
▣ 빅데이터 활용 기본 테크닉(7가지)
ⓛ 연관 규칙 학습 (Association rule learning)
☞ 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
예: A를 구매한 사람이 B를 더 많이 사는가?
② 유형 분석 (Classification tree analysis)
☞ 새로운 사건이 속하게 될 범주를 찾아내는 방법
예: 이 사용자가 어떤 특성을 가진 집단에 속하는가?
③ 유전 알고리즘 (Genetic algorithms)
☞ 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
예: 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송
④ 기계 학습 (Machine learning)
☞ 훈련 데이터로부터 학습한 알려진 특성을 활용해 ‘예측’하는데 초점
예: 기존 시청기록을 바탕으로 시청자는 보유한 영화 중 어떤 영화를 가장 보고 싶어 하는가?
⑤ 회귀분석 (Regression analysis)
☞ 독립변수를 조작하며, 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악
예: 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
⑥ 감정분석 (Sentiment analysis)
☞ 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
예: 새로운 환불 정책에 대한 고객의 평가는 어떤가?
⑦ 소셜 네트워크 분석 (Social network analysis)
☞ 오피니언 리더, 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객들 간 소셜 관계를 파악
예: 특정인과 다른 사람이 몇 촌 정도의 관계인가?
5. 빅데이터 위기 요인과 통제 방안
▣ 위기 요인
① 사생활 침해
② 책임 원칙 훼손
③ 데이터 오용
▣ 통제 방안
① 사생활 침해 → 동의에서 책임으로
- 개인정보 사용자의 책임
② 책임 원칙 훼손 → 결과 기반 책임 원칙 고수
③ 데이터 오용 → 알고리즘 접근 허용
- 알고리즈미스트 대두됨
▣ 익명화 기술(개인정보 비식별화 기술)
① 데이터 마스킹
- 데이터의 길이 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성
② 가명 처리
- 개인 정보 주체의 이름을 다른 이름으로 변경
③ 총계 처리
- 데이터의 통합 값을 보임으로 개별 데이터의 값을 보이지 않도록 함
④ 데이터 값 삭제
- 데이터의 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인 식별에 중요한 값을 삭제
⑤ 데이터 범주화
- 데이터의 값을 범주의 값으로 변환하여 값을 숨김
6. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
▣ 빅데이터 활용에 필요한 기본 3요소
① 데이터 : 모든 것의 데이터화
② 기술
③ 인력
- 데이터 사이언티스트 : 수학, 통계, 경제학, 컴퓨터 공학 등의 전문지식을 가지고 실무에서 활용할 수 있는 전문가
- 알고리즈미스트(Algorithmist)
: 알고리즘을 해석하여 알고리즘에서 비롯된 피해를 파악하고 구제하는 일을 하는 전문가
▣ 데이터 사이언스
☞ 데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당분야의 전문 지식을 종합하는 학문
• 데이터 처리와 관련된 IT 영역, 분석적 영역, 비즈니스 컨설팅 영역을 포괄
▣ 데이터 사이언스의 구성요소
① 분석적 영역(Analytics) : 수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
② IT 영역 (Data Management) : 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등
③ 비즈니스 분석 : 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등
▣ 데이터 사이언티스트의 요구 역량
• 하드 스킬(hard skill) : 빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
• 소프트 스킬(soft skill) : 통찰력 있는 분석, 설득력 있는 전달, 다분야간 협력
▣ 데이터 웨어하우스(Data Warehouse)의 정의
☞ 사용자의 의사 결정에 도움을 주기 위해서 기간시스템에 축적된 데이터를 공통의 형식으로 변환(정제 및 가공처리)해서 관리하는 데이터베이스
☞ 데이터 웨어하우스의 특성(4가지)
① 주제 지향성
② 통합성
③ 시계열성
④ 비휘발성(nonvolatilization)
▣ 데이터 레이크(Data Lake)
현재 정의된 목적이 없는 비정형 원시 데이터를 저장
▣ 데이터 마이닝(Data Mining)
☞ 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
• 통계학에서 발전한 데이터 마이닝 기법
- 탐색적 자료 분석, 가설 검증, 다변량 분석, 시계열 분석, 일반선형 모형
• 데이터베이스에서 발전한 데이터 마이닝 기법
- OLAP(온라인 분석 처리)
• 인공지능 영역에서 발전한 데이터 마이닝 기법
- SOM, 신경망, 전문가 시스템
'ADsP 데이터 분석 준전문가 자격증' 카테고리의 다른 글
[데이터 분석 기획] 04. 분석 방법론 (0) | 2022.08.23 |
---|---|
[데이터 분석 기획] 03. 분석 기획 시 고려 사항 (0) | 2022.08.23 |
[데이터 분석 기획] 02. 목표 시점별 분석 기획 방안 (0) | 2022.08.23 |
[데이터 분석 기획] 01. 분석 대상과 방법에 따른 주제 유형 (0) | 2022.08.23 |
[ADsP] 2과목 데이터 분석 기획 (0) | 2022.07.16 |