본문 바로가기

분류 전체보기

(125)
[데이터 이해] 06. 데이터 사이언스 06. 데이터 사이언스 1. 데이터 사이언스의 의미 • 데이터 사이언스는 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커 사고방식, 해당 분야의 전문 지식을 종합한 학문이다. • 정형, 반정형, 비정형의 다양한 데이터를 대상으로 하며 총체적 접근법을 사용한다. 2. 데이터 사이언스의 핵심 구성요소 IT (Data Managerment) • 시그널 프로세싱 • 프로그래밍 • 데이터 엔지니어링 • 데이터 웨어하우징 • 고성능 컴퓨팅 분석 • 수학 • 확률 모델 • 분석학 • 패턴인식과 학습 비즈니스 컨설팅 • 커뮤니케이션 • 프리젠테이션 • 스토리텡링 • 시각화 ◈ 다른 학문과의 차이점 데이터 사이언스 통계학 데이터 마이닝 분석 대상 정형, 반정형, 비정형 등 다양한 데이터 정형화된 데이터 분석 ..
[데이터 이해] 05. 빅데이터의 위기요인과 통제방안 05. 빅데이터의 위기요인과 통제방안 1. 빅데이터의 위기요인과 해결방안 사생활 침해 • 동의제에서 책임제로 전환 • 특정 데이터가 본래 목적 외에 가공 처리되어 2차, 3차적 목적으로 활용 책임원칙 훼손 • 결과기반 책임 원칙 고수 • 분석 대상이 된느 사람들은 예측 알고리즘의 희생양이 될 가능성 증가 예 : 범죄 예측 프로그램을 통해 범죄 전에 체포(영화 마이너리티 리포트) 데이터 오용 • 알고리즘 접근 허용 및 객관적인 인증 방안 도입 • 데이터 과신, 잘못된 지표 사용으로 잘못된 인사이트를 얻어 비즈니스에 직접 손실 발생 ☞ 익명화(Anonymization) 사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 것. ☞ 알고리즈미스트(Algori..
[데이터 이해] 04. 빅데이터의 이해 04. 빅데이터의 이해 1. 빅데이터의 특징(3V) 빅데이터는 단순히 용량만 방대한 것이 아니라 복잡성도 증가해 기존 데이터 처리 애플리케이션이나 관리 툴(tool)로는 다루기 어려운 데이터 세트의 집합이다. Volume • 데이터의 크기, 생성되는 모든 데이터 수집 Variety • 데이터의 유형과 다양성 증가함 Velocity • 데이터의 수집과 처리 측면에서 속도 향상 ☞ 데이터의 양의 단위 기가바이트(GB) < 테라바이트(TB) < 페타바이트(PB) < 엑사바이트(EB) < 제타바이트(ZB) < 요타바이트(YB) 2. 빅데이터의 출현 배경 1) 기업들이 보유한 데이터가 거대한 가치 창출이 가능할 만큼 충분한 규모에 도달 2) 학계의 거대 데이터 활용 과학 확산 3) 디지털화, 저장기술, 클라우딩 ..
[데이터 이해] 03. 기업 내부 데이터베이스 [데이터 이해] 03. 기업 내부 데이터베이스 1. 시대별 기업 내부 데이터베이스 솔루션 1980년대 - OLTP, OLAP, 2000년대 - CRM, SCM, RTE OLTP • 온라인 거래 처리(On-Line Transation Processing) • 주 컴퓨터와 통신회선으로 접속되어 있는 복수의 사용자 단말에서 발생한 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 사용자에게 되돌려 보내 주는 처리 형태 예 : 상품 주문, 회원정보 수정 OLAP • 온라인 분석 처리(On-Line Analytical Processing) • 다차원으로 이루어진 데이터로부터 통계적 요약 정보를 제공할 수 있는 기술, 다차원의 데이터를 대화식으로 분석하기 위한 SW 예 : 10년간 A사의 직급별 임금 상승률 CRM • ..