05. 빅데이터의 위기요인과 통제방안
1. 빅데이터의 위기요인과 해결방안
사생활 침해 | • 동의제에서 책임제로 전환 | • 특정 데이터가 본래 목적 외에 가공 처리되어 2차, 3차적 목적으로 활용 |
책임원칙 훼손 | • 결과기반 책임 원칙 고수 | • 분석 대상이 된느 사람들은 예측 알고리즘의 희생양이 될 가능성 증가 예 : 범죄 예측 프로그램을 통해 범죄 전에 체포(영화 마이너리티 리포트) |
데이터 오용 | • 알고리즘 접근 허용 및 객관적인 인증 방안 도입 | • 데이터 과신, 잘못된 지표 사용으로 잘못된 인사이트를 얻어 비즈니스에 직접 손실 발생 |
☞ 익명화(Anonymization)
사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 것.
☞ 알고리즈미스트(Algorithmist)
데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해 생겨난 직업으로 이들이 만들어 낸 알고리즘을 해석하여 피해를 입은 사람을 구제하는 전문가
2. 개인정보 비식별 기법
데이터 마스킹 | 데이터의 길이, 휴형, 형식과 같은 속성은 유지한 채, 새롭고 읽기 쉬운 데이터를익명으로 생성 예 : 홍길동, 990909-1234567 → 홍**, 9*****-1****** |
데이터 범주화 | 데이터의 값을 몇 개의 구간으로 범주화하여 값을 숨김 예 : 홍길동, 24세 → 홍씨, 20대 |
가명처리 | 개인식별 정보를 삭제, 알아볼 수 없는 형태로 변환 개인정보 주체의 이름을 다른 이름으로 변경 예 : 홍길동, 한국대학교 → 이순신, 국제대학교 |
총계 처리 (평균값 대체) |
데이터의 총계 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함. 예 : 1반 학생의 평균키는 165cm |
데이터 값 삭제 | 데이터 섹에 구성된 값 중에 필요없는 값 또는 개인 식별에 중요한 값을 삭제 |
잡음 첨가 | 자료 값에 잡음을 추가하거나 곱하여 원 데이터에 약간의 변형을 가하여 공개 |
※ 예제 및 기출문제
1. 다음 중 개인정보 비식별화 기법을 설명한 것으로 부적절한 것은?
① 가명 처리 - 개인 식별이 가능한 데이터에 대해서 직접적으로 식별할 수 없는 다른 값으로 대체
② 범주화 - 단일 식별정보를 해당 그룹의 대표 값으로 변환
③ 데이터 마스킹 - 개인 정보 식별이 가능한 특정 데이터 값을 삭제처리
④ 총계 처리 - 개별 데이터 값을 총합 또는 평균값으로 대체하는 방법
정답 : 1 - ③
'ADsP 데이터 분석 준전문가 자격증' 카테고리의 다른 글
[데이터 분석 - 통계분석] 01. 통계 분석 (0) | 2022.08.26 |
---|---|
[데이터 이해] 06. 데이터 사이언스 (0) | 2022.08.26 |
[데이터 이해] 04. 빅데이터의 이해 (0) | 2022.08.26 |
[데이터 이해] 03. 기업 내부 데이터베이스 (0) | 2022.08.24 |
[데이터 이해] 02. 데이터베이스의 정의와 활용 (0) | 2022.08.24 |