Credit : pcmag.com
초거대 AI 의 데이터 보안 이슈
ChatGPT의 등장 이후로 많은 기업들이 LLaMA, Bard 등 다양한 초거대 AI를 앞다투어 공개하고 있습니다. 글로벌 빅테크 트렌드에 발맞추어 다양한 규모의 기업들에서 초거대 AI를 활용해보고자 하는 수요가 폭발적으로 증가하고 있습니다. 현재는 공개된 초거대 AI를 수요기업 자체 데이터로 최적화하여 맞춤형 AI를 구축하는 것이 보편적이나, 이러한 과정에서 ‘나의 소중한 데이터가 유출되지는 않을까?’, ‘너무 많은 비용이 들지는 않을까?’와 같은 걱정이 앞서는 것이 현실입니다.
이러한 데이터 보안 이슈는 실제로 기업이나 인공지능 프로젝트 규모에 상관없이 언제든지 발생할 수 있는데요, 실제로 최근 OpenAI CEO는 ChatGPT에서 일부 사용자가 타인의 대화 제목을 볼 수 있는 사생활 침해 이슈가 발생하였음을 인정한 사례도 있었습니다.
🔗 사례
: OpenAI Confirms Leak of ChatGPT Conversation Histories
Offsite-Tuning 의 등장
다시 본론으로 돌아가, 수요기업들은 ChatGPT와 같이 이미 압도적인 성능을 보유한 채로 공개된 초거대 AI를 자체 데이터에 추가로 학습하여 다양한 세부 작업에 최적화할 수 있습니다. 하지만, 모델의 추가 학습을 위해서는 공급기업-수요기업 간에 모델 전체 혹은 데이터를 공유해야 하며 이 과정에서 막대한 리소스가 필요할 수 있습니다. 이번 아티클에서는, 이러한 문제를 해결하기 위해 제안된 ‘Offsite-Tuning’이라는 방법을 공유드리고자 합니다. (해당 논문은 2023년 2월에 arXiv에 공개되었습니다.)
🔗 논문 링크
: [2302.04870] Offsite-Tuning: Transfer Learning without Full Model
해당 방법을 간단히 요약하면, ‘모델 소유자’는 전체 모델이 아닌 압축된 모델을 전달하여 모델 공개를 방지할 수 있으며, ‘데이터 소유자’는 압축된 모델 일부만 내부적으로 추가 학습하여 데이터 유출 방지와 동시에 학습 비용 절감 효과를 달성할 수 있습니다.
※ 아래의 내용은 방법론에 해당하는 부분이니 조금은 어려운 내용일 수 있습니다.
Offsite-Tuning: 전체 모델 없이 추가 학습하기
Offsite-Tuning을 이용하여 AI 모델을 추가 학습하면, 전체 모델 공개를 방지함과 동시에 학습 데이터의 보안을 동시에 지킬 수 있다. (AI 개발 기업과 수요 기업이 모두 Win-Win!)
모델 일부에 대해서만 추가 학습을 진행하기 때문에 학습 비용을 절감할 수 있다.
기존의 방법대로 추가 학습용 데이터를 모두 공개하여 모델 전체를 학습하였을 때 대비, 성능 저하가 크지 않다.
해당 논문에서는 초거대 AI의 활용 과정을 크게 ‘모델 소유자’와 세부 태스크에 추가 학습 하고자 하는 ‘데이터 소유자’로 구분하여 접근합니다. 이 과정에서 발생할 수 있는 문제점을 각 관점에 따라 아래와 같은 2가지로 나누어 제시합니다.
(1) ‘데이터 소유자’가 추가 학습하고자 하는 데이터를 ‘모델 소유자’에게 전달하는 방법 (‘데이터 소유자’ → ‘모델 소유자’): 데이터 프라이버시 유출의 위험
(2) ‘모델 소유자’가 ‘데이터 소유자’에게 모델을 전달하는 방법 (‘모델 소유자’ → ‘데이터 소유자’): 모델 소유권 침해의 위험
즉, AI 모델의 추가 학습을 위해서는 데이터 혹은 모델을 상대방에게 공개해야 하는데, 이 과정에서 상호간 보안 이슈가 생길 수 있다는 문제점이 있습니다. 이는 비단 초거대 AI에서만 발생할 수 있는 이슈가 아니라, AI를 개발하는 모든 기업과 해당 기업의 서비스를 활용하고자 하는 수요 기업 모두에게 흔히 발생할 수 있는 문제점입니다. 그렇다면 어떻게 양측의 소유권을 동시에 지켜주면서 특정 세부 작업에 추가 학습을 진행할 수 있을까요?
예시로 ‘Offsite-Tuning’ 이해하기
해당 논문에서는 ‘Offsite-Tuning’이라는 기법을 도입하여 위와 같은 문제점들을 해결하고자 합니다. 위 방법을 다음과 같은 예시를 통해 이해해봅시다.
인공지능 개발 기업인 ‘렛서’가 ‘A 병원’에게 특정 AI 모델을 제공하고자 합니다.
이때 ‘렛서’의 입장에서, ‘A 병원’이 직접 모델을 추가 학습할 수 있도록 AI 모델과 가중치(weights)를 모두 제공하는 것(‘렛서’ → ‘A’ 병원)은 회사의 자산 유출의 문제점이 있습니다.
하지만 반대로 ‘A 병원’의 데이터를 ‘렛서’에게 전달하는 것(‘A’ 병원 → ‘렛서’)은 프라이버시가 중요한 의료 데이터가 유출된다는 심각한 문제점이 있습니다. (해당 예시에서는 IRB 승인과 같은 상황은 고려하지 않았습니다.)
이러한 상황에서 ‘Offsite-Tuning’을 도입하면, ‘렛서’는 모델 전체에 대한 정보가 아니라 압축된 모델을 ‘A 병원’에게 전달해주게 됩니다. 또한 ‘A 병원’은 ‘렛서’에게 의료 데이터를 공개할 필요 없이 전달받은 압축 모델을 바탕으로 가벼운 추가 학습을 통해 원하는 모델을 완성할 수 있습니다. 따라서 궁극적으로 목표했던 ‘사전학습된 인공지능 모델을 세부 태스크에 추가 학습하기’를 달성함과 동시에 회사 자산과 소중한 병원 데이터를 지킬 수 있게 됩니다.
‘Offsite-Tuning’ 의 기술적인 내용
‘Offsite-Tuning’의 핵심인 ‘모델 압축’과 ‘추가 학습’에 대해 간략히 정리하면 아래와 같습니다.
‘모델 압축’: 해당 논문에서는 데이터 소유자에게 전달하기 위해 압축한 모델을 ‘emulator’라고 부릅니다. 이러한 emulator를 만들기 위해서 layer drop-based 압축 기법을 활용합니다. 해당 방법은 특정 간격의 레이어를 제외한 나머지 레이어를 모두 제거하여 얻은 일부 모델을 활용하는 것입니다.
‘추가 학습’: 위와 같은 방법으로 얻은 emulator 전체를 다시 학습하는 것은 여전히 많은 비용을 요구할 뿐만 아니라 대규모 데이터셋를 바탕으로 사전 학습된 정보가 소실될 수 있는 문제가 있습니다. 이를 해결하기 위해서 입력과 출력에 ‘adapter’라는 학습 가능한 작은 레이어들을 구성하여 해당 ‘adapter’만 추가 학습하는 방법을 채택하였습니다.
Offsite-tuning 의 성능
위 테이블은 자연어 모델인 ‘GPT2’와 ‘OPT’에 Offsite-tuning을 적용하였을 때의 성능 비교입니다. 여기서 주목할 부분은 Full ZS, FT, 그리고 OT Plug-in 입니다.
Full ZS: 추가 학습 없이 기존 모델을 바로 세부 태스크에 적용한 결과 (저성능-비용X)
FT: 모델 전체를 추가 학습한 결과 (고성능-고비용)
OT Plug-in: Offsite-tuning을 이용하여 추가 학습한 결과 (고성능-저비용)
학습 비용 절감 효과와 동시에 모델 및 데이터의 소유권을 모두 지킬 수 있는 Offsite-tuning (OT Plug-in)은 추가 학습을 거치지 않는 Full ZS 대비 높은 성능을 보여주었으며, 모델 전체를 추가 학습하는 FT와 비교하였을 때에도 크게 떨어지지 않는 결과를 보이고 있습니다. 해당 논문에 따르면 Offsite-tuning이 FT 대비 약 6.5배의 학습 속도 향상 및 약 5.6배의 메모리 절감 효과가 있었다고 합니다.
컴퓨터 비전 분류 태스크에서도 Offsite-tuning은 유의미한 성능 결과를 보여주었으니 관심 있으신 분들께서는 논문 실험 결과 파트를 읽어보시면 도움이 될 것 같습니다.
Offsite-tuning 이 인공지능 배포 및 도입에 미칠 수 있는 영향
모델 학습 비용 절감과 동시에 모델 및 데이터 유출을 방지하는 것은 인공지능 개발 기업과 해당 서비스를 이용하고자 하는 수요 기업 모두에게 굉장히 중요한 요소입니다.
이와 같은 목표를 한번에 달성할 수 있는 ‘Offsite-tuning’이라는 기법을 소개드렸으며 AI 배포 및 도입을 고민하시는 모든 분들께 도움이 되시길 바랍니다.