본문 바로가기

ADsP 데이터 분석 준전문가 자격증

[데이터 이해] 05. 빅데이터의 위기요인과 통제방안

05 빅데이터의 위기요인과 통제방안

05. 빅데이터의 위기요인과 통제방안

1. 빅데이터의 위기요인과 해결방안

사생활 침해  동의제에서 책임제로 전환 • 특정 데이터가 본래 목적 외에 가공 처리되어 2차, 3차적 목적으로 활용
책임원칙 훼손  결과기반 책임 원칙 고수 분석 대상이 된느 사람들은 예측 알고리즘의 희생양이 될 가능성 증가
예 : 범죄 예측 프로그램을 통해 범죄 전에 체포(영화 마이너리티 리포트)
데이터 오용  알고리즘 접근 허용 및 객관적인 인증 방안 도입 데이터 과신, 잘못된 지표 사용으로 잘못된 인사이트를 얻어 비즈니스에 직접 손실 발생

☞ 익명화(Anonymization)

사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 것.

 

☞ 알고리즈미스트(Algorithmist)

데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해 생겨난 직업으로 이들이 만들어 낸 알고리즘을 해석하여 피해를 입은 사람을 구제하는 전문가

 

2. 개인정보 비식별 기법

데이터 마스킹 데이터의 길이, 휴형, 형식과 같은 속성은 유지한 채, 새롭고 읽기 쉬운 데이터를익명으로 생성
예 : 홍길동, 990909-1234567 → 홍**, 9*****-1****** 
데이터 범주화 데이터의 값을 몇 개의 구간으로 범주화하여 값을 숨김
예 : 홍길동, 24세 → 홍씨, 20대
가명처리 개인식별 정보를 삭제, 알아볼 수 없는 형태로 변환
개인정보 주체의 이름을 다른 이름으로 변경
예 : 홍길동, 한국대학교 → 이순신, 국제대학교
총계 처리
(평균값 대체)
데이터의 총계 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함.
예 : 1반 학생의 평균키는 165cm
데이터 값 삭제 데이터 섹에 구성된 값 중에 필요없는 값 또는 개인 식별에 중요한 값을 삭제
잡음 첨가 자료 값에 잡음을 추가하거나 곱하여 원 데이터에 약간의 변형을 가하여 공개

 

 

※ 예제 및 기출문제

1. 다음 중 개인정보 비식별화 기법을 설명한 것으로 부적절한 것은?

① 가명 처리 - 개인 식별이 가능한 데이터에 대해서 직접적으로 식별할 수 없는 다른 값으로 대체

② 범주화 - 단일 식별정보를 해당 그룹의 대표 값으로 변환

③ 데이터 마스킹 - 개인 정보 식별이 가능한 특정 데이터 값을 삭제처리

④ 총계 처리 - 개별 데이터 값을 총합 또는 평균값으로 대체하는 방법

 

 

정답 : 1 -  ③