인공지능 학습에 있어 데이터는 가장 중요한 역할을 하기 때문이다. 데이터의 양과 질에 따라 학습된 인공지능 모델의 성능도 달라진다. 따라서 인공지능을 개발하는 기업 또는 연구기관은 좋은 성능의 모델을 만들기 위해서 좋은 학습 데이터에 접근하는 것이 매우 중요한 과정이 되었고 특히 비정형데이터(이미지·영상·음성·텍스트 등)에 대한 활용수요가 폭발적으로 증가*했다. * 전 세계 데이터 중 이미지, 영상, 음성, 텍스트 등 비정형데이터가 최대 90%를 차지 (IDC, ‘23)
이에 따라 개인정보보호위원회는 2024년 2월 5일 「가명정보 처리 가이드라인」 개정안을 내놓았다. 기존의 「가명정보 처리 가이드라인」은 정형데이터에 대한 처리기준만 제시하고 있어 기업, 연구기관 등은 적합한 가명처리 방법이나 수준을 알지 못하는 등 현장의 불확실성이 컸다.
정형데이터와 비정형데이터 차이
구분 | 정형 데이터 | 비정형 데이터 |
정의 | 정해진 규칙에 맞게 구조화된 형식으로 존재하는 데이터 | 일정한 규격이나 정해진 형태가 없이 구조화되지 않은 데이터 |
특징 | 데이터 연산, 분석 등 데이터 처리 방식, 가명처리 기술‧방법이 비교적 단순 | 연구목적‧환경에 따라 데이터 처리방식 및 가명처리 기술‧방법이 복잡‧다양 |
예시 | ※ 예) DB에 열과 행으로 저장된 테이블형식의 자료 등 | ※ 예) 사진·이미지, 비디오, 통화음성, 대화기록, 논문·보고서, 블로그 등 |
비정형데이터는 개인식별 가능 정보에 대한 판단이 상황에 따라 달라질 수 있는 만큼, 데이터 처리목적 및 환경, 민감도 등을 종합적으로 고려하여 개인식별 위험을 판단하고 합리적인 처리방법과 수준을 설정
예를 들어, 정형데이터의 경우, 주민번호, 전화번호, 주소 등과 같이 개인식별위험이 있는 정보가 비교적 명확히 구분되지만, 비정형데이터는 그렇지 않다.
눈‧코‧입을 알아볼 수 없는 거리‧각도에서 찍힌 CCTV 영상‧사진도 머리 스타일, 흉터, 문신 등 특이한 신체적 특징 때문에 식별위험이 있을 수 있다. 흉부 CT 촬영사진도 그 자체로는 식별위험이 높지 않지만 3차원 재건기술 악용, 특이한 흉터 등은 위험요소가 될 수 있다.
1. 이에 대해, 개인정보위는 가이드라인에서 제시한 개인식별 위험성 검토 체크리스트를 통해 식별위험을 사전에 진단하고, 위험을 낮추기 위한 관리적‧환경적 통제방안을 마련하여 활용토록 했다.
연구목적 달성에 필수적인 정보항목을 남기는 경우에는 그 외 정보에 대한 1)가명처리 수준을 높이거나 2)접근권한 통제, 3)식별에 악용될 수 있는 소프트웨어(SW) 반입제한, 4)보안서약서 징구 등 조치를 시행하도록 했다.
2. 비정형데이터에 내재된 개인식별 위험 요인을 완벽하게 탐지하여 처리할 수 있는 기술이 아직 없기 때문에, 이러한 기술적 한계 등을 보완하기 위한 조치들을 이행할 것을 권고하였다.
가명처리 기술의 적절성·신뢰성을 확인할 수 있는 근거*를 작성·보관
가명처리 결과에 대해 자체적인 추가검수를 수행
또한 처리기술의 적절성·신뢰성을 확인할 수 있는 근거와 추가검수 등에 대해서 외부전문가가 참여한 위원회의 적정성 검토를 받도록 권고 * 예) CT사진의 가장자리를 마스킹 솔루션을 적용하여 가명처리한 경우, 해당 솔루션의 관련 가명처리 기능, 솔루션의 객체 인식률·처리 정확도(오류율)에 대한 증빙자료 등 작성 및 보고
주요 분야별 비정형데이터 가명처리 시나리오 예시
➊ 의료 (이미지, 영상, 텍스트) 유방암·골밀도 감소 여부 진단 AI 개발
➋ 의료 (이미지) 구강질환 진단 AI 개발
➌ 의료 (이미지, 영상) 안면골 골절 진단 AI 개발
➍ 교통 (이미지, 영상) 자율주행차 주행 시 비정상 상황인지 AI 개발
❺ 교통 (이미지) 고속도로 다인승전용차 단속 AI 개발
❻ 대화·검색 (텍스트) 한국어 대화가 가능한 AI 챗봇 제작
❼ 대화·교육 (음성, 텍스트) 콜센터 직원 교육용 가상상담 시나리오 생성 AI 개발
출처:
Commenti