세계 보안 엑스포  전자정부 솔루션 페어  개인정보보호 페어  국제 사이버 시큐리티 컨퍼런스  세계 태양에너지 엑스포  스마트팩토리  세계 다이어트 엑스포  INFO-CON
2017년 분야별 개인정보보호 이슈 짚어보기- 1. 빅데이터
  |  입력 : 2017-10-08 19:55
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기
빅데이터 개인정보 침해 이슈 : 입력 데이터, 빅데이터와 인공지능 결합 등

[보안뉴스 박미영 기자] 지능정보화 기술의 발전에 따라 빅데이터, 사물인터넷/자율주행차, 핀테크, 스마트 의료/헬스케어, 인공지능, 생체인식 기반 인증/보안, 드론을 비롯한 다양한 분야에서 개인정보보호 이슈가 제기되고 있다. 이에 본지는 7회에 걸쳐 ‘2017 개인정보보호 연차보고서’에 소개된 각 분야별 개인정보보호 이슈를 짚어보는 시간을 마련했다. 첫 번째는 빅데이터 환경에서의 개인정보 침해 이슈를 살펴본다.

[이미지=iclickart]


최근 빅데이터는 그 어느 때보다 중요한 기반기술로 인식되고 있으며, 빅데이터 산업에서 가장 두드러진 특징은 다음과 같다.

당초 빅데이터는 물리적 컴퓨터 시스템에서 구동되는 것을 전제로 구상됐다. 그러나 아마존, 구글, 마이크로소프트, 알리바바 등 세계를 대상으로 클라우드 서비스를 제공하는 기업이 클라우드에서 구동되는 빅데이터 분석 솔루션을 매우 저렴하게 제공하고 있어 클라우드 컴퓨팅에서의 빅데이터 분석이 일반화됐다. 또한, 클라우드 컴퓨팅 활용으로 인해 비정형화된 사물인터넷 데이터가 빅데이터로 적극 활용될 수 있는 기반을 마련하게 됐다.

더불어 빅데이터 분석에 특화된 신기술은 결국 기존 기술로 대응하지 못했던 ‘계산 중심적인’ 머신러닝, 딥러닝(Deep Learning), 그래프 알고리즘의 활용을 가속화할 것으로 예측된다. 빅데이터는 더 이상 그 자체로 의미 있는 것이 아니라 머신러닝과 같은 인공지능 기술의 발전을 견인하는 기반기술로 작용하고 있다.

기업들은 빅데이터를 분석하기 위해 직접 프로그래밍을 하던 관행에서 벗어나, 빅데이터를 보다 적절히 이해하고 분석하는 도구를 제공하는 알고리즘 사업자로부터 알고리즘을 구매할 것으로 예상된다. 이와 관련한 시장은 그 규모가 급속히 확대돼 새로운 시장으로 형성 또는 확대되고 있다.

이처럼 빅데이터가 다양한 분야에서 사람들의 삶에 변화를 일으킬 수 있다는 긍정적 측면에도 불구하고, 개인정보보호 측면의 우려를 깨끗이 씻어낸 것은 아니다.

미국은 이미 2016년도에 발간한 빅데이터 보고서(Big Data : A Report on Algorithmic Systems, Opportunity, and Civil Rights)를 통해 빅데이터가 근본적으로 개인정보 침해 이슈를 안고 있다는 점에 대해 적절히 지적하고 있다.

이 보고서는 특히, 빅데이터에서의 주된 도전이 예상되는 지점을 △ 알고리즘에 의한 데이터 입력과 △ 알고리즘 시스템의 구성 및 머신러닝으로 구분해 설명하고 있다. 이에 대한 설명을 통해서 향후 빅데이터의 어떠한 영역에서 개인정보 침해 이슈가 본격적으로 논의될 것인지를 예견하고 있다.

입력 데이터
빅데이터 분석도구에 입력되는 데이터가 선택되는 과정에서 발생하는 다양한 문제가 개인정보보호 측면에 직·간접적으로 영향을 미친다.

알고리즘 시스템을 구현하는 주체가 특정한 데이터가 다른 데이터에 비해 분석 결과가 더 중요하다고 판단해 전자에 가중치를 부여하거나 후자를 분석 대상에서 제외하는 경우, 잘못 선택된 데이터로 인해 실제 현상을 충분히 반영하지 못하는 결과를 도출할 우려가 있다. 이로 인해 사회를 구성하는 소수의 데이터가 분석 결과에 반영되지 못하거나 그 반대로 특정 소수의 결과가 도드라지는 형태의 결과가 도출됨으로써 그들의 사생활이나 개인정보가 의도하지 않게 공개되는 결과를 낳을 수도 있는 것이다.

예를 들면 빅데이터 처리 과정에서 입력 데이터가 부정확하거나 오래됐거나 완전하지 않은 경우에 개인정보 침해 문제가 발생할 수 있다. 현재는 범죄 경력에서 제외된 과거의 기록이 빅데이터 분석으로 공개되거나 타인을 비방할 목적의 게시물 또는 잘못된 정보를 이용한 게시물이 입력 데이터에 포함될 수 있다. 또한, 완결성이 떨어지는 데이터가 입력 데이터에 포함될 수도 있다. 이러한 경우, 해당 데이터는 일반적인 데이터의 분포 밖에 위치하게 돼 그 데이터가 귀속되는 정보주체를 쉽게 식별할 수 있는 문제가 있다.

이외에도 입력 데이터가 편향성을 띄고 있는 경우 또는 이러한 편향적 알고리즘에 대해 적절한 보정 절차를 적용하지 않는 경우에도 개인정보 침해 문제가 발생할 우려가 있다. 예를 들면, 범죄예방 목적으로 설치된 영상정보처리기기(CCTV)를 통해 수집된 빅데이터에 안면 인식 기술을 적용해 범죄자를 자동으로 식별하는 시스템이 있을 수 있다. 하지만 이를 실제 적용했을 때 특정 인종을 과도하게 범죄자로 잘못 인식하는 사례도 발생할 수 있는데, 이와 같은 데이터 분석 과정의 편향과 인종 프로파일링은 프라이버시 침해 사례를 단적으로 보여주는 것이라 할 수 있다.

빅데이터와 인공지능
빅데이터 분석이 인공지능과 결합하면서 기존에는 막대한 시간이나 재원의 소요로 인해 불가능했던 분석이 가능해졌다. 그러나 인공지능은 알고리즘을 개발한 당사자조차 어떤 절차를 통해 특정한 분석 결과가 도출됐는지를 설명할 방법이 없거나 그러한 방법이 매우 제한적이라는 근본적 문제를 안고 있다.

이는 딥러닝 방식에서 더욱 심화될 수 있다. 인공 신경망에서는 특정 계층에 위치한 수많은 뉴런이 다른 뉴런과 연결돼 데이터를 분석하고, 그 결과를 다음 계층에 위치한 뉴런에 전달하는 방식을 반복하면서 결과를 도출한다. 이 전체 과정을 모두 확인해 특정 결과가 도출된 이유를 분석하는 것은 현재 기술 수준에서는 불가능한 것으로 알려져 있다. 만약 이러한 과정을 모두 추적해 특정 결과가 도출된 경과를 확인한다 하더라도, 이를 일반인들이 이해할 수 있도록 설명하는 것은 또 다른 도전과제인 것이다.

이러한 이유로 빅데이터를 인공지능이 분석해 정보주체에 관한 판단을 내리는 경우 어떤 이유로 그와 같은 결과가 도출됐는지를 파악할 수 없고, 그와 같은 결과로 인해 특정 개인에 대한 차별적 판단이 내려지거나 내면의 은밀한 비밀이 공개된다 하더라도 그에 대한 피해를 예방하거나 사후적으로 정정을 요구할 수 있는 방안이 마련돼 있지 않다는 문제도 있다.

기타
빅데이터를 누가, 어디서, 어떤 방식으로 수집해 분석하고 그 결과를 어떤 목적으로 활용할 것인지를 정보주체가 사전에 파악해 그의 권리를 행사하기 곤란한 점도 빅데이터가 가지고 있는 개인정보 침해 이슈 가운데 하나다.

세계적인 네트워크 및 인프라 기업인 시스코(Cisco)가 지난 2016년 발간한 ‘제타바이트 시대 보고서(The Zettabyte Era - Trends and Analysis - Cisco)’에 따르면, 세계 인터넷 데이터 트래픽이 2020년까지 2.3ZB에 도달할 것이라고 예측하고 있다.

이와 같이 방대한 정보는 전 세계에 위치하고 있는 클라우드 서비스 제공자, 콘텐츠 딜리버리 네트워크(CDN, Content Delivery Network), 퍼블리셔(Publisher) 등 다양한 관계자들에 의해 수집·분석·활용된다.

그런데 정보주체가 자신의 정보가 어디에서 누구에게 분석돼 어떤 목적으로 활용되는지를 사전에 알 수 없어 개인정보가 침해된다 하더라도 그 피해에 대한 적절한 구제를 받을 수 없는 문제가 있다.
[박미영 기자(mypark@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>



비츠코리아 파워비즈시작 2017년7월3일파워비즈 배너
설문조사
애플이 아이폰X에 얼굴인식 방식인 페이스ID를 새롭게 도입한다고 해서 관심이 모아지고 있습니다. 이를 계기로 스마트폰에 탑재되는 생체인식기술 간 보안성 및 편리성 대결도 벌어지고 있는데요. 이를 모두 고려할 때 스마트폰에 탑재되는데 있어 가장 효과적인 생체인식기술은 무엇이라고 보시나요?
지문인식
홍채인식
얼굴인식
화자인식(목소리로 누구인지 식별)
다중인식(지문+홍채, 지문+얼굴 등)
기타(댓글로)