04. 빅데이터의 이해
1. 빅데이터의 특징(3V)
빅데이터는 단순히 용량만 방대한 것이 아니라 복잡성도 증가해 기존 데이터 처리 애플리케이션이나 관리 툴(tool)로는 다루기 어려운 데이터 세트의 집합이다.
Volume | • 데이터의 크기, 생성되는 모든 데이터 수집 |
Variety | • 데이터의 유형과 다양성 증가함 |
Velocity | • 데이터의 수집과 처리 측면에서 속도 향상 |
☞ 데이터의 양의 단위
기가바이트(GB) < 테라바이트(TB) < 페타바이트(PB) < 엑사바이트(EB) < 제타바이트(ZB) < 요타바이트(YB)
2. 빅데이터의 출현 배경
1) 기업들이 보유한 데이터가 거대한 가치 창출이 가능할 만큼 충분한 규모에 도달
2) 학계의 거대 데이터 활용 과학 확산
3) 디지털화, 저장기술, 클라우딩 컴퓨팅 등 관련 기술 발전
4) 소셜 미디어, 영상 등 비정형 데이터 확산
5) 데이터 처리 기술 발전
3. 빅데이터의 역할
산업혁명의 석탄과 철 | • 빅데이터는 석탄과 철이 산업혁명에서 했던 역할처럼 제조업 뿐만 아니라 서비스 분야의 생산성 향상을 기대 |
21세기의 원유 | • 다양한 정보를 활용하여 산업 전반의 생산성을 향상시킬 것으로 기대 |
렌즈 역할 | • 현미경이 생물학에 미쳤던 영향처럼 빅데이터는 데이터의 변화 과정을 한눈에 볼수 있는 기능 제공 예 : 구글 ' Ngram Viewer'을 통해 수천만권의 책을 디지털화 |
플랫폼 역할 | • 비즈니스 측면에서 '공동 활용의 목적으로 구축된 유무형의 구조물'을 의미함 • 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터의 형태로 제공 • 사용자 데이터와 센서 데이터를 수집하고 API를 공개하면 서드파티 사용자들이 활용하는 플랫폼 역할 예 : 페이스북, 카카오톡 |
4. 빅데이터가 만들어 내는 본질적인 변화
① 사전 처리 → 사후 처리
② 표본 조사 → 전수 조사
③ 질 → 양 (예 : 구글의 자동번역기)
④ 인과 관계 → 상관관계
▣ 빅데이터의 가치 선정이 어려운 이유
데이터 활용 | • 특정 데이터를 언제, 어디서, 누가 사용할지 알 수 없음 • 재사용, 재조합, 다목적 활용 |
새로운 가치 창출 | • 데이터가 기존에 없던 가치를 창출함에 따라 가치의 측정이 어려움 |
분석 기술의 발전 | • 새로운 분석 기법의 등장으로 가치가 없는 데이터도 거대한 가치를 만들어내는 재료가 될 가능성이 높아짐. |
5. 빅데이터의 활용기법
연관 규칙 학습 Association rule learning |
• 어떤 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 예: A를 구매한 사람이 B를 더 많이 사는가? |
유형 분석 Classification tree analysis |
• 새로운 사건이 속하게 될 범주를 찾아내는 방법 예: 이 사용자가 어떤 특성을 가진 집단에 속하는가? |
유전알고리즘 Genetic algorithms |
• 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법 예: 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송 |
기계 학습 Machine learning |
• 훈련 데이터로부터 학습한 알려진 특성을 활용해 ‘예측’하는데 초점 예: (넷플릿스 추천시스템) 기존 시청기록을 바탕으로 시청자는 보유한 영화 중 어떤 영화를 가장 보고 싶어 하는가? |
회귀분석 Regression analysis |
• 독립변수를 조작하며, 종속변수가 어떻게 변하는지를 보며 두 변인의 관계를 파악 예: 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? |
감정분석 Sentiment analysis |
• 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 예: 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소셜 네트워크 분석 Social network analysis |
• 오피니언 리더, 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객들 간 소셜 관계를 파악 예: 특정인과 다른 사람이 몇 촌 정도의 관계인가? |
6. 빅데이터 활용에 필요한 기본 3요소
데이터 | 모든 것의 데이터화 • 사물 인터넷(IoT) : 각 종 사물에 센서와 통신 기능을 내장하여 인터넷에 연결하는 기술 |
기술 | 진화하는 알고리즘, 인공지능 • 인공지능 → 머신러닝 → 딥러닝 |
인력 | • 데이터 사이언티스트 • 알고리즈미스트 |
※ 예제 및 기출문제
1. 다음 중 빅데이터의 특징으로 적절하지 않은 것은?
① 비즈니스 상황에서는 인과관계를 몰라도 상관관계 분석만으로 충분한 경우가 많다.
② 사전처리에서 사후처리로 변화
③ 표본 조사의 중요도가 더욱 높아졌다.
④ 총정보량이 증가하여 몇 개의 오류 데이터가 대세에 영향을 주지 못하는 경향이 있다.
2. 빅데이터가 가져온 변화로 적절하지 않은 것은?
① 서비스 산업이 확대되고 제조업의 생산성이 감소되었다.
② 데이터 획득 비용이 기하급수적으로 감소하고 모든 곳에서 데이터가 넘쳐나 사용자 전수조사가 가능해졌다.
③ 데이터의 질(Quality)보다 양(Quantity)을 강조하게 되었다.
④ 복잡한 인과관계에서 단순한 상관관계로 변화하였다.
3. 다음 중 감정 분석에 대한 설명으로 부적절한 것은?
① 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다.
② 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 활용한다.
③ 고객들 간 소셜 네트워크 관계를 파악할 수 있다.
④ 호텔에서 고객의 논평을 받아 서비스를 개선하기 위해 활용한다.
4. 커피를 많이 사는 사람들이 탄산음료도 많이 구매하는지 알아보기 위해 사용되는 분석은?
① 회귀분석
② 기계학습
③ 유전 알고리즘
④ 연관 규칙 학습
정답 : 1 - ③, 2 - ①, 3 - ③, 4 - ④
'ADsP 데이터 분석 준전문가 자격증' 카테고리의 다른 글
[데이터 이해] 06. 데이터 사이언스 (0) | 2022.08.26 |
---|---|
[데이터 이해] 05. 빅데이터의 위기요인과 통제방안 (0) | 2022.08.26 |
[데이터 이해] 03. 기업 내부 데이터베이스 (0) | 2022.08.24 |
[데이터 이해] 02. 데이터베이스의 정의와 활용 (0) | 2022.08.24 |
[데이터 이해] 01. 데이터의 이해 (0) | 2022.08.24 |