본문 바로가기

ADsP 데이터 분석 준전문가 자격증

[데이터 이해] 04. 빅데이터의 이해

04 빅데이터의 이해

04. 빅데이터의 이해

1. 빅데이터의 특징(3V)

빅데이터는 단순히 용량만 방대한 것이 아니라 복잡성도 증가해 기존 데이터 처리 애플리케이션이나 관리 툴(tool)로는 다루기 어려운 데이터 세트의 집합이다.

Volume • 데이터의 크기, 생성되는 모든 데이터 수집
Variety • 데이터의 유형과 다양성 증가함 
Velocity • 데이터의 수집과 처리 측면에서 속도 향상

☞ 데이터의 양의 단위

기가바이트(GB) < 테라바이트(TB) < 페타바이트(PB) < 엑사바이트(EB) < 제타바이트(ZB) < 요타바이트(YB)

 

2. 빅데이터의 출현 배경

1) 기업들이 보유한 데이터가 거대한 가치 창출이 가능할 만큼 충분한 규모에 도달

2) 학계의 거대 데이터 활용 과학 확산

3) 디지털화, 저장기술, 클라우딩 컴퓨팅 등 관련 기술 발전

4) 소셜 미디어, 영상 등 비정형 데이터 확산

5) 데이터 처리 기술 발전

 

3. 빅데이터의 역할

산업혁명의 석탄과 철 • 빅데이터는 석탄과 철이 산업혁명에서 했던 역할처럼 제조업 뿐만 아니라 서비스 분야의 생산성 향상을 기대
21세기의 원유 • 다양한 정보를 활용하여 산업 전반의 생산성을 향상시킬 것으로 기대
렌즈 역할 • 현미경이 생물학에 미쳤던 영향처럼 빅데이터는 데이터의 변화 과정을 한눈에 볼수 있는 기능 제공
예 : 구글 ' Ngram Viewer'을 통해 수천만권의 책을 디지털화
플랫폼 역할 • 비즈니스 측면에서 '공동 활용의 목적으로 구축된 유무형의 구조물'을 의미함
• 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터의 형태로 제공
• 사용자 데이터와 센서 데이터를 수집하고 API를 공개하면 서드파티 사용자들이 활용하는 플랫폼 역할
예 : 페이스북, 카카오톡

 

4.  빅데이터가 만들어 내는 본질적인 변화

① 사전 처리 → 사후 처리

② 표본 조사 → 전수 조사

③ 질 → 양 (예 : 구글의 자동번역기)

④ 인과 관계 →  상관관계

 

▣ 빅데이터의 가치 선정이 어려운 이유

데이터 활용 • 특정 데이터를 언제, 어디서, 누가 사용할지 알 수 없음
• 재사용, 재조합, 다목적 활용
새로운 가치 창출 • 데이터가 기존에 없던 가치를 창출함에 따라 가치의 측정이 어려움
분석 기술의 발전 • 새로운 분석 기법의 등장으로 가치가 없는 데이터도 거대한 가치를 만들어내는 재료가 될 가능성이 높아짐.

 

5. 빅데이터의 활용기법

연관 규칙 학습
Association
rule learning
• 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
예: A를 구매한 사람이 B를 더 많이 사는가?
유형 분석
Classification
tree analysis
• 새로운 사건이 속하게 될 범주를 찾아내는 방법
예: 이 사용자가 어떤 특성을 가진 집단에 속하는가?
유전알고리즘
Genetic
algorithms
• 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
예: 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송
기계 학습
Machine
learning
• 훈련 데이터로부터 학습한 알려진 특성을 활용해 ‘예측’하는데 초점
예: (넷플릿스 추천시스템) 기존 시청기록을 바탕으로 시청자는 보유한 영화 중 어떤 영화를 가장 보고 싶어 하는가?
회귀분석
Regression
analysis
• 독립변수를 조작하며, 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악
예: 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
감정분석
Sentiment
analysis
• 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
예: 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜 네트워크 분석
Social network
analysis
• 오피니언 리더, 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객들 간 소셜 관계를 파악
예: 특정인과 다른 사람이 몇 촌 정도의 관계인가?

6. 빅데이터 활용에 필요한 기본 3요소

데이터 모든 것의 데이터화
• 사물 인터넷(IoT) : 각 종 사물에 센서와 통신 기능을 내장하여 인터넷에 연결하는 기술 
기술 진화하는 알고리즘, 인공지능
• 인공지능 → 머신러닝 → 딥러닝
인력 • 데이터 사이언티스트
• 알고리즈미스트

 

 

 

※ 예제 및 기출문제

 

1. 다음 중 빅데이터의 특징으로 적절하지 않은 것은?

① 비즈니스 상황에서는 인과관계를 몰라도 상관관계 분석만으로 충분한 경우가 많다.

② 사전처리에서 사후처리로 변화

③ 표본 조사의 중요도가 더욱 높아졌다.

④ 총정보량이 증가하여 몇 개의 오류 데이터가 대세에 영향을 주지 못하는 경향이 있다.

 

2. 빅데이터가 가져온 변화로 적절하지 않은 것은?

① 서비스 산업이 확대되고 제조업의 생산성이 감소되었다.

② 데이터 획득 비용이 기하급수적으로 감소하고 모든 곳에서 데이터가 넘쳐나 사용자 전수조사가 가능해졌다.

③ 데이터의 질(Quality)보다 양(Quantity)을 강조하게 되었다.

④ 복잡한 인과관계에서 단순한 상관관계로 변화하였다.

 

3. 다음 중 감정 분석에 대한 설명으로 부적절한 것은?

① 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다.

② 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 활용한다.

③ 고객들 간 소셜 네트워크 관계를 파악할 수 있다.

④ 호텔에서 고객의 논평을 받아 서비스를 개선하기 위해 활용한다. 

 

4. 커피를 많이 사는 사람들이 탄산음료도 많이 구매하는지 알아보기 위해 사용되는 분석은?

① 회귀분석

② 기계학습

③ 유전 알고리즘

④ 연관 규칙 학습 

 

 

 

 

정답 : 1 -  ③, 2 - ①, 3 - ③, 4 - ④