TMT/AI 이슈리포트 - 개인정보보호위원회, ‘인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서’ 발간
개인정보보호위원회, ‘인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서’ 발간
법무법인 대륙아주 김정은 변호사1
1. 들어가며
개인정보보호위원회는 지난 7월 인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서(이하 “본 안내서”라고 합니다)를 발간하였습니다.
공개된 개인정보를 타인이 수집·이용하는 것은 개인정보보호법령의 규정상 근거가 충족되는 경우 허용됩니다. 다만 AI의 학습은 전통적인 개인정보 처리와 목적, 규모, 방식 등이 달라 그 근거가 명확하지 않을 수 있습니다. 따라서 개인정보보호위원회는 AI 개발 및 서비스를 위하여 공개된 개인정보를 수집·이용할 수 있는 법령 해석 기준을 제공하기 위하여 본 안내서를 발간하였습니다.
이하에서는 본 안내서의 내용을 간략하게 소개하도록 하겠습니다.
2. 적용 대상
가. 공개된 개인정보의 범위
공개된 개인정보는 누구나 합법적으로 접근 가능한 개인정보로서, 주로 AI 학습을 위해 웹 스크래핑 기술을 이용하여 공개적으로 접근가능한 출처에서 수집한 데이터셋에 개인정보가 포함된 경우를 상정합니다. 공개된 개인정보는 정보주체 스스로 공개한 개인정보에 국한되는 것은 아니고, 법령에 의해 공개된 개인정보, 출판물이나 방송매체에 포함된 개인정보도 사안에 따라 본 안내서의 적용 대상에 포함될 수 있습니다.
나. 사업자의 범위
본 안내서는 개인정보보호법상 개인정보처리자의 지위를 갖는 AI 개발자 및 서비스 제공자를 대상으로 합니다.
개인정보 처리자에 해당하는지 여부는 ‘① 업무를 목적으로 ② 개인정보파일을 운용하기 위한 개인정보 처리’인지를 기준으로 하는데, AI 개발자 및 서비스 제공자는 원칙적으로 개인정보보호법상의 개인정보 처리자(제2조 제5호)에 해당합니다.
해외 AI 개발자 및 서비스 제공자의 경우에도 (i) 한국 정보주체를 대상으로 재화 또는 서비스를 제공하거나 (ii) 한국인 또는 한국 정보주체의 개인정보를 처리하여 한국 정보주체에게 영향을 미치는 경우 등에는 원칙적으로 본 안내서가 적용됩니다.
3. 공개된 개인정보 처리의 법적 근거
AI 학습 및 서비스를 위하여 공개된 개인정보를 수집·이용하는 경우, 개인정보보호법 제15조 제1항 제6호가 법적 근거가 될 수 있습니다.
개인정보보호법 제15조 제1항 제6호는 (i) 개인정보처리자의 정당한 이익이 있을 것, (ii) 개인정보 처리가 정당한 이익의 달성을 위하여 필요하고, 상당한 관련성 및 합리성이 인정될 것, (iii) 개인정보처리자의 정당한 이익이 명백하게 정보주체의 권리보다 우선할 것이라는 세 가지 요건이 충족될 경우 개인정보를 수집할 수 있으며 그 수집 목적의 범위에서 이용할 수 있다고 정하고 있습니다.
가. 목적의 정당성
개인정보처리자의 ‘정당한 이익’은 개인정보 처리에 관한 합법적인 이익으로서, AI 개발자 및 서비스 제공자의 영업상 이익뿐 아니라, 그로부터 발생하는 사회적 이익 등 다양한 이익을 포함합니다.
목적의 정당성이 인정될 수 있는 사회적 이익의 예시로는 ① AI 학습에 특정 개인정보가 배제되지 않게 하여 인종, 종교, 지역, 성별, 소득, 재산 등에 따라 차별적인 예측값이 생성되지 않도록 함으로써 AI 생성물의 공정성을 높이는 것, ② 특정 언어로 표시된 데이터가 과소 학습됨에 따라 특정 언어에 대한 AI 성능이 저하되고 특정 언어를 사용하는 개인의 AI 접근성이 저하되는 것을 방지하는 것 등이 있습니다.
반면, 목적의 정당성이 인정될 수 없는 사례로는 ① 안면인식 DB와 결합하여 개인에 대한 프로파일링 및 감시 목적으로 AI 시스템을 개발하는 경우, ② 사이버 공격, 개인 사칭 사기(예: 피싱, 스미싱) 목적으로 AI 시스템을 개발하는 경우 등이 있습니다.
나. 처리의 필요성
개인정보처리자의 정당한 이익이 정보주체 권리에 우선하기 위해서는 개인정보 처리의 필요성과 상당성·합리성이 인정되어야 합니다.
1) 필요성: 학습데이터 규모에 비례하여 AI 기술의 정확도, 신뢰도 등이 대체로 향상되는 것으로 알려져 있어 대규모 학습데이터의 필요성이 있는 것으로 인식되고 있습니다. 그러나, AI 개발·서비스를 위한 공개된 개인정보 처리의 필요성은 일률적으로 인정될 수 없고, AI의 구체적인 목적, 용도, 맥락 등을 고려하여 개별적으로 판단되어야 합니다.
2) 상당성·합리성: AI 개발자 및 서비스 제공자는 공개된 개인정보를 수집·이용하는 경우 정당한 이익과 상당한 관련이 있고, 합리적인 범위를 초과하는지 여부를 스스로 평가해 보아야 합니다. AI 개발 목적에 맞는 학습 데이터 수집 기준을 정하고 상당한 관련성 없는 정보는 학습에서 배제하는 것이 바람직합니다.
다. 이익형량
AI 학습·서비스 맥락에서는 공개된 개인정보의 성격, 공개의 대상 범위, 공개된 개인정보의 처리방식, 정보주체의 예견가능성, 권리보장 방안 등을 고려하여 ‘정보주체 권리’에 대한 침해·제한 정도를 평가할 수 있습니다.
이익형량 요건을 충족하기 위해서는 (i) 개인정보처리자의 이익이 정보주체 권리에 우선한다는 점이 명백하거나 (ii) 개인정보처리자의 이익이 정보주체 권리에 우선하도록 정보주체 권리침해 위험을 예방·경감하기 위한 안전성 확보 조치 및 정보주체 권리보장 방안을 마련하여야 합니다.
4. 안전성 확보 조치 기준
AI 개발자 및 서비스 제공자는 정당한 이익과 정보주체 권리 사이의 명백한 우선관계를 확인하기 어려운 경우, 정보주체 권리에 대한 침해를 방지하기 위한 안전성 확보조치를 충분히 시행하는 것이 바람직합니다.
가. 기술적 조치
1) 학습데이터 수집 출처·검증 관리: 공개 데이터에는 위법하거나 정보주체의 의사와 무관하게 공개된 개인정보가 다수 포함되어 있을 수 있어 데이터 수집 출처 검증 노력이 필요합니다. AI 개발자가 직접 웹 스크래핑 도구를 이용하여 공개된 개인정보를 수집하는 경우, 웹사이트 이용약관과 로봇배제표준 등을 준수할 필요가 있습니다. AI 개발자가 제3자가 수집·배포한 데이터 집합을 이용하고자 하는 경우, 신뢰할 수 있는 제3자 인지를 확인하고 주요 데이터 출처 목록을 확인하는 것이 바람직합니다.
2) 개인정보 유·노출 금지: 일정한 단어 또는 형태소(morpheme) 단위로 토큰화된 학습데이터는 그 자체로 식별성이 낮을 수 있으나, 출력 단계에서 암기된 토큰이 재조립되어 역류(regurgitate)될 가능성이 있어 이를 최소화하기 위한 기술적 조치가 필요합니다. 이를 위하여 특정 범주의 개인 식별자를 삭제하거나 비식별화하는 조치 등을 고려할 수 있습니다. 또한 신뢰할 수 있는 기관에서 배포한 중복제거(de-duplication) 데이터셋을 이용하거나 중복제거 도구를 직접 적용하여 AI 모델의 암기 리스크를 줄이는 방법도 고려할 수 있습니다.
3) 개인정보의 안전한 저장 및 관리: AI 개발자 및 서비스 제공자는 학습데이터가 유·노출되거나 이용자 DB 등과 결합하여 개인을 식별하거나 민감정보를 추론할 수 있는 리스크를 방지하기 위하여 접근제한 등 안전조치를 고려할 필요가 있습니다.
4) 미세조정을 위한 안전장치 추가: 학습데이터에는 편향적이거나 부정확한 정보, 민감한 사적정보가 포함될 수 있어 사전 정제과정이 수반되는 경우가 많으나, 이로써 모든 위험을 방지할 수 있는 것은 아니기에 지도학습 기반 미세조정, 사람 피드백 기반 강화학습 등의 미세조정 기법 적용을 고려할 수 있습니다.
5) 프롬프트 및 출력 필터링 적용: 실제 서비스 단계에서 프롬프트 공격 등에 의해 개인정보 유·노출 등의 위험이 발생할 수 있으므로, 프롬프트 필터, 출력 필터 등을 적용하는 조치를 고려할 수 있습니다.
6) 학습 결과에서 특정 데이터 삭제: AI 모델에 대한 ‘재훈련’ 없이도 개인정보나 유해한 표현 등을 삭제하여 주는 ‘머신 언러닝(machine unlearning)’ 기술 적용을 고려할 수 있습니다.
나. 관리적 조치
1) 학습데이터 처리기준 정립 및 개인정보 처리방침에 공개: 최소 수집, 목적 명확화 등 개인정보보호법 원칙을 고려하여 학습데이터 처리기준을 미리 정하고 이를 개인정보 처리방침 등에 공개하는 것이 권장됩니다.
2) 개인정보 영향평가 수행 고려: AI 학습 데이터에 민감한 정보가 포함되어 있을 개연성이 높거나 정보주체 권리·의무에 중대한 영향을 미칠 수 있는 AI 서비스를 개발·운영하는 경우 특히 영향평가 실시를 고려하는 것이 바람직합니다.
3) ‘(가칭) AI 프라이버시 레드팀’ 구성 및 운영: 별도의 팀을 구성하여 개발 시 예상하지 못한 개인정보 침해 유형을 시험·확인하고 AI 모델 배포 이후 정보주체에 미칠 수 있는 유해한 영향을 최소화하는 것이 권장됩니다.
4) 오픈소스, API 등 AI 개발·배포 특성에 따른 안전조치: 오픈소스 모델은 최초 배포 후에는 개발자의 통제력이 약화되는 특성이 있어, 오픈소스 모델을 개발하는 사업자는 이용방법과 조건의 범위를 명시한 라이선스 정책을 수립·배포하는 것이 바람직합니다. 한편, API 연계를 통한 서비스의 경우에도, API 이용사업자가 미세조정 과정을 통해 개인정보를 침해할 우려가 있으므로 AI 개발자는 API 이용사업자가 개인정보보호를 준수하도록 계약상 의무를 부과하고 상세한 사용지침, 기술문서 등을 제공하는 것이 바람직합니다.
5. 시사점
본 안내서는 개인정보보호 법제를 기본으로 하여 AI 개발 및 서비스 과정에서 공개된 개인정보의 안전한 처리에 관한 최소한의 기준을 정했다는 점에서 의미가 있습니다. 기업들은 AI 모델의 성능과 개인정보의 보호 사이에서 균형을 맞출 수 있는 안전성 확보 조치를 시행함으로써 공개된 개인정보 처리의 적법성을 확보하고 정보주체 권리침해 위험을 예방할 수 있을 것으로 보입니다.
개인정보보호위원회는 추후 개인정보보호 관련 법령의 제·개정, 관련 판결, 기술발전과 시장상황 등을 반영하여 본 안내서를 개정할 예정이므로, 관련 기업들은 이를 지속적으로 모니터링할 필요가 있습니다.