정보를 통한 해방 혹은 속박

정보를 통한 해방 혹은 속박

글 | 박경신 (오픈넷 이사, 고려대 법학전문대학원 교수)

 

최근 과학기술부정보통신부는 ‘인공지능 R&D 챌린지’를 통해 뉴스데이터 6천 개 중에서 가짜뉴스를 찾는 기술력을 평가하여 우수연구팀 3개 팀에 15억 원의 연구비를 지원하기로 하였다. ​2위 아이와즈팀의 강장묵 교수(남서울대)는 “일 년 동안 130만 건의 신문 기사를 기계학습”함으로써 이룬 “규칙 기반의 뉴스 기사 분석”을 성공의 비결로 밝혔다.

트럼프 당선과 함께 인터넷과 정보기술이 우리의 삶을 파괴하는 방식 중의 하나로 지적되었던 가짜뉴스의 질곡을 바로 인터넷과 정보기술이 해소할 수 있는 가능성을 보여준다. 이 미담의 핵심에는 130만 개의 신문기사, 즉 빅데이터가 있다. 인공지능이 최근 일취월장 발전하고 있는 것은 인공지능을 훈련시키는 재료가 되는 빅데이터의 출현에 힘입은 바 크다.

빅데이터가 사회적으로 더욱 유용한 역할을 할 때는 전혀 상관이 없을 것으로 보이는 성격의 DB들을 합쳐 전에는 인류가 몰랐던 통찰을 유추해내는 것이다. 예를 들어 건강정보 DB와 휴대폰 사용기록 DB를 연결하면 핸드폰에서 나오는 전자파와 암 발병과의 관계를 밝혀낼 수 있다.

하지만 이 시나리오에서 우리가 유의할 것이 있다. 건강정보 DB는 우리가 긴요한 의료서비스를 받기 위한 치료목적으로 병원에 제공한 정보를 축적하여 만들어지는 것이다. 그런데 예를 들어 핸드폰제조사가 안전한 휴대폰개발을 위한 연구목적으로 이를 이용하는 것은 환자의 사생활의 비밀 침해라고 볼 수 있다. 자발적으로 정부기관이나 회사에 제공한 정보라고 할지라도 정보제공의 조건과 목적에 반하게 이용되면 의사에 반한 정보유출 즉 ‘감시’와 등가라고 볼 수 있다. 이를 막기 위해서는 자신의 정보를 타인에게 제공할 때 그 정보가 어떤 목적으로 누구에게 이용되고 공유되는지를 통제할 수 있어야 한다(“개인정보자기결정권”). 물론 그 정보가 누구에 대한 것인지 알 수 없게 된 상태로 즉 ‘익명화’되어 유출한다면 사생활의 비밀침해는 없을 것이고 개인정보보호법 문제도 없어진다.

그런데 서로 다른 목적으로 축적되어 있는 DB들의 상호결합을 위해서는 적어도 각 DB의 엔트리들 중에서 동일인의 것들을 매칭시키는 작업이 필요하다. 사람 A의 핸드폰사용기록과 사람 B의 암 발병여부를 매칭시켜놓은 데이터는 ‘밀려쓴 답안지’처럼 휴지조각이다. 그렇다고 실명정보를 외부에 제공하면 개인정보보호법 위반이다. 이런 이유로 DB 결합은 보통 각 DB에서 소위 “개인식별정보(이름, 주민번호 등등)”를 가명으로 전환한 후(보통은 일방향 해쉬함수) 동일한 가명를 가진 DB 엔트리들을 결합한 후 가명을 떼어내는 방식으로 이루어진다. 원본 데이터를 가진 사람은 데이터 내용을 비교해보고 정보주체를 찾아낼 수 있으므로 결합된 DB를 익명화하는 기술을 쓴다(k익명성 등등).

여기에 대해 우리나라에서는 다른 두 가지 입장이 대치되고 있다. 한 쪽에서는 가명생성공식을 아는 사람이 존재하는 한 ‘가명화’된 정보는 항상 재식별화가 될 수 있어 익명화라고 볼 수 없는 상황(유럽개인정보보호법의 입장)에서 정보주체들의 동의 없이 새로운 목적으로 그들에 대한 다른 정보와 결합하는 순간 이미 불법적인 ‘목적 외 이용’에 해당하므로 불가하다는 것이다. 다른 쪽에서는 신뢰받는 제3자가 가명생성방식의 비밀을 유지하면서 DB 결합서비스를 대신하고 그 이후에 최대한 익명화 작업을 한다면 어느 누구도 혼자서는 결합 DB를 용이하게 재식별화할 방법은 없으므로 개인정보보호법 위반이 아니라는 것이다. 예를 들어 민간인인 내가 하나의 휴대폰 번호를 가지고 있다고 할지라도 이통사가 그 휴대폰 번호와 이용자 실명이 매칭된 장부를 나에게 유출하지 않는 한, 위 휴대폰 번호는 누구의 사생활도 침해하지 않는다.

우리는 여기서 중요한 가치판단을 내려야 한다. 빅데이터는 본질적으로 개인정보보호법 위반 소지가 있다. 하지만 개인정보보호는 개인식별정보를 보관한 자들이 법과 계약을 지킬 것이라는 약속에 어느 정도는 기댈 수밖에 없다. 이 약속이 무의미하다면 익명화는 논리적으로 불가능하다(기술적 불가능성 문제는 이 논란에 대해서는 중립적이다). 빅데이터를 통한 지식추구의 장점과 여기서 발생하는 사생활의 침해 위험 사이에서 적정선을 긋는 공론화위원회 류의 솔직한 대화가 필요하다. 정보를 통한 해방, 정보를 통한 속박 두 가지를 모두 잡는 방법을 찾아야 한다.

 

* 위 글은 시사IN에 기고한 글입니다. (2017.12.29.)

Print Friendly, PDF & Email