본문 바로가기

IT 이슈

[Machine Unlearning] 인공지능으로부터 잊힐 권리, 머신 언러닝

NeurIPS 2023 Machine Unlearning Challenge (Image credits: Dall-E and toppng.com)

 

 

인공지능 기술이 나에게 한층 가깝게 다가왔다고 처음 느꼈을 때가 언제인가요? 기계가 인간을 이길 수 없는 영역으로 여겨지던 바둑에서 사람을 이기며 세상을 놀라게 했던 알파고? 지금은 너무나 익숙한 콘텐츠 제공 서비스에서의 추천 시스템? 자율주행차의 상용화? ChatGPT와 같은 LLM의 등장? 

 

 

누구는 아직 인공지능 기술이 우리의 일상생활에 영향을 미치는 부분이 미미하다고 느낄 수도 있고 누구는 기술의 속도가 빠르다고 느끼는 등 처해있는 환경에 따라 생각하는 바가 다를 거라고 생각이 드는데요. 저의 경우 여러 업무에서 LLM들을 적극적으로 활용하고 있기 때문에 이미 떼려야 뗄 수 없는 상황이 된 것 같습니다. 분명한 것은 인공지능 기술은 계속해서 발전하고 있고 우리의 생활에 적어도 '스며들고 있다'라는 표현을 쓰기에는 적절해 보이는데요. 

 

 

만약 이런 인공지능 기술이 지속적으로 발전한다면 미래는 어떻게 바뀔까요? 지금까지 해결하기 어려웠거나 시간과 비용이 많이 소요되는 문제들이 해결되고 자동화를 통한 생산 비용의 감소로 우리의 생활은 더욱 윤택해지겠죠. 실제로 이미지 분류나 바둑, 체스, 전투기 조종 등의 일부 문제에서는 이미 인간의 능력을 넘어섰으며 신약 개발, 로보틱스, 항공 우주, 콘텐츠 제작 등 거의 모든 분야에서 인공지능 기술이 활용되어 우리를 돕고 있습니다.

 

 

현대 인공지능 기술의 대표격이라 할 수 있는 딥러닝은 앞서 나열된 분야들에 전반적으로 활용되고 있는데요. 이제는 '딥러닝'이란 단어를 들어본 누구나 인공지능이 무언가를 학습함으로써 성능이 개선된다는 사실을 익히 알고 있을 겁니다. 고성능의 인공지능 모델을 만들기 위해서는 알고리듬 자체의 개선보다 대량의 잘 정제된 고품질의 데이터가 더 효과적이라는 사실은 대다수의 인공지능 연구자들이 인정하는 사실인데요. 따라서 대형의 인공지능 모델을 개발하는 IT 기업들에서는 최대한 많고 품질 높은 데이터를 모으기 위해 애쓰고 있고 데이터 자체가 돈이 되는 세상이 도래했습니다.

 

 

문제는 데이터 자체가 돈이 되기 때문에 무분별한 데이터 수집이 이루어지고 이로 인해 개인정보 유출의 위험이 뒤따른다는 점인데요. 만약 나도 모르는 사이에 나에 대한 정보가 인공지능 모델의 학습에 이용되고 그 인공지능 모델을 사용하는 불특정 다수의 사람들이 나에 대한 정보를 내가 알 수 없는 곳에 이용한다면 어떨까요? 또는 내 사진이 인공지능 모델의 학습에 이용돼서 카메라가 있는 어느 곳에서나 나의 위치를 누구나 알 수 있다면요? 생각만 해도 이것만큼 무서운 일이 없을 것 같네요.

 

 

인공지능 연구에서는 이렇게 개인정보가 학습되는 문제를 미연에 방지하기 위해 학습 데이터에 존재하는 개인정보를 분별해 삭제하는 De-identification (비식별화)이라는 분야가 존재하긴 합니다. 보통 개인정보가 쉽게 포함될 수 있거나 노출이 돼서는 안되는 의료 데이터를 기반한 연구들이 많고요. 비식별화 기술을 통해 환자의 개인 정보는 보호하면서도 암과 같은 질병을 조기에 발견할 수 있도록 연구에 도움을 주는 것이죠.

 

 

하지만 인공지능 모델이 이미 개인정보가 포함된 데이터를 학습했다면 상황은 달라집니다. 물론 작은 모델을 학습 시키거나 학습 시간이 짧아 학습에 대한 매몰비용이 크지 않다면 모델을 폐기하고 재학습을 진행시킬 수 있겠죠. 하지만 대형 모델이나 LLM과 같은 초대형 인공지능 모델의 경우 학습 비용이 수억에서 수십억 원 이상이 될 수도 있습니다. 이런 큰 비용을 감당할 만큼 기업들이 자발적으로 모델의 재학습을 수행하기를 기대하기는 어렵겠죠. 실제로 개인정보가 일부분 학습 데이터에 포함되었다고 해서 그 정보가 실사용 단계에서 노출될 수 있다는 근거를 찾기도 힘들거든요. 딥러닝과 같은 인공신경망 모델들은 그 안이 보이지 않는 블랙박스와 같이 추론 과정과 결과에 대한 어떠한 인과 관계를 명확하게 설명하기 어렵기 때문입니다.

 

 

언러닝이란?

이에 대한 대안으로 떠오른 것이 바로 언러닝 (Unlearning)이라는 분야인데요. 언러닝이라는 개념은 기본적으로 인공지능 모델이 학습한 정보나 패턴을 잊거나 대체하기 위한 과정을 의미합니다. 이를 통해 아래와 같은 세 가지 문제를 해결하기 위해 처음 제안되었습니다.

  1. 개인정보 보호 문제 : 의도치 않게 학습된 데이터에 포함된 특정 개인의 정보를 잊어버리게 하는 문제.
  2. 재학습 문제 : 현실 데이터는 지속적으로 변화하기 때문에 때로는 모델이 오래되고 더 이상 유효하지 않은 정보를 '잊고' 새로운 정보를 받아들일 수 있도록 재학습 시키는 것이 필요.
  3. 연속 학습 문제 : 새로운 데이터가 지속적으로 발생하고 이를 연속적으로 학습해야 하는 경우, 오래된 패턴이나 정보를 잊고 최신의 정보와 패턴에 집중할 수 있도록 하는 것이 필요.

 

다시 말하면, 언러닝은 모델이 새로운 패턴 정보에 집중하도록 하여 성능 개선을 이루어줄 뿐만 아니라, 의도치 않게 모델이 학습하지 말아야 할 데이터를 학습하였다면 그 정보를 잊게 해주는 기술입니다.

 

 

'잊혀질 권리' (또는 잊힐 권리)에 대해 들어보신 적이 있으신가요? '잊혀질 권리'는 유럽 사법재판소의 판결에 따라 유럽 연합에서 2014년 5월 처음으로 확립된 권리의 통칭입니다. 유럽 사법재판소에서는 유럽 데이터 보호법에 따라 개인의 이름과 관련된 검색어를 통해 나타나는 특정 검색 결과를 삭제하도록 Google과 같은 검색엔진에 요청할 권리가 개인에게 있다고 판결했습니다. 

 

 

그만큼 개인 정보가 인터넷에 쉽게 남고 지워지기 힘들기에, 그리고 이런 개인정보는 악용될 소지가 있기에 생겨난 개념이라고 생각이 드는데요. 이제는 단순히 인터넷 콘텐츠로부터 잊혀질 권리만 필요할 것이 아니라 인공지능 모델로부터 잊혀질 권리가 논의되어야 할 시대가 온 것 같네요.

 

 

Unlearning 관련 이미지

 

 

인공지능 분야 최고의 학회 NeurIPS에서는 돌아오는 2023년 컨퍼런스에서 Unlearning 챌린지를 개최하기로 했습니다. 바로 '잊혀질 권리' (right to be forgotten)와 현대 사회의 개인 정보 규제 정책에 초점을 맞춘 대회인데요. 2023년 6월 28일부터 시작해서 10월 중에 우승자를 발표한다고 하네요. 또한 이번 챌린지는 구글의 딥마인드의 주최로 수행되는 것 같은데요. 관심 있으신 분들은 아래 링크를 통해 좀 더 자세히 알아보셔도 좋을 것 같습니다.

 

https://unlearning-challenge.github.io/

 

NeurIPS 2023 Machine Unlearning Challenge

Website for the NeurIPS 2023 Machine Unlearning Challenge.

unlearning-challenge.github.io

 

 

 

인공지능 최고의 학회에서 대회가 열리는 만큼 이번 기회로 많은 인공지능 연구자들이 Unlearning이라는 분야에 대해서 관심을 갖는 계기가 될 것 같기도 하네요. 개인 정보에 대한 문제가 사회적으로 대두되는 만큼 Unlearning 연구의 방향에 대한 세간의 이목도 점점 커질 것 같습니다.