머신러닝의 숨겨진 비용: 개인 정보 보호

게시 됨: 2024-06-16

머신러닝은 맞춤형 의학, 자율주행차, 맞춤형 광고 등 여러 분야에서 한계를 뛰어넘었습니다.

그러나 연구에 따르면 이러한 시스템은 패턴을 학습하기 위해 훈련받은 데이터의 측면을 기억하므로 개인 정보 보호에 대한 우려가 제기됩니다.

통계와 기계 학습의 목표는 과거 데이터로부터 학습하여 미래 데이터에 대한 새로운 예측이나 추론을 하는 것입니다.

이 목표를 달성하기 위해 통계학자 또는 기계 학습 전문가는 데이터에서 의심되는 패턴을 포착할 모델을 선택합니다.

모델은 데이터에 단순화된 구조를 적용하므로 패턴을 학습하고 예측이 가능합니다. 복잡한 기계 학습 모델에는 몇 가지 고유한 장단점이 있습니다.

긍정적인 측면에서는 훨씬 더 복잡한 패턴을 학습하고 이미지 인식 및 특정 사람이 치료에 어떻게 반응할지 예측과 같은 작업을 위해 더 풍부한 데이터 세트를 사용할 수 있습니다.

그러나 데이터에 과적합될 위험도 있습니다. 이는 훈련받은 데이터에 대해 정확하게 예측하지만 현재 작업과 직접적으로 관련되지 않은 데이터의 추가 측면을 배우기 시작한다는 것을 의미합니다.

이는 일반화되지 않은 모델로 이어집니다. 즉, 동일한 유형이지만 훈련 데이터와 정확히 동일하지 않은 새로운 데이터에서는 성능이 좋지 않습니다.

과적합과 관련된 예측 오류를 해결하는 기술이 있지만 데이터에서 너무 많은 것을 배울 수 있기 때문에 개인 정보 보호 문제도 있습니다.

머신러닝 알고리즘이 추론하는 방법

인간의 손이 이진 코드로 디지털 인터페이스를 만지고 있습니다. 일체 포함
이미지: Pixabay

각 모델에는 특정 개수의 매개변수가 있습니다. 매개변수는 변경될 수 있는 모델의 요소입니다. 각 매개변수에는 모델이 훈련 데이터에서 파생되는 값 또는 설정이 있습니다.

매개변수는 알고리즘 성능에 영향을 미치기 위해 돌릴 수 있는 다양한 손잡이로 생각할 수 있습니다.

직선 패턴에는 기울기와 절편이라는 두 개의 손잡이만 있는 반면, 기계 학습 모델에는 매우 많은 매개 변수가 있습니다. 예를 들어 언어 모델 GPT-3에는 1,750억 개가 있습니다.

매개변수를 선택하기 위해 기계 학습 방법은 훈련 데이터의 예측 오류를 최소화하는 것을 목표로 훈련 데이터를 사용합니다.

예를 들어, 병력을 기반으로 개인이 특정 치료에 잘 반응할지 여부를 예측하는 것이 목표인 경우, 기계 학습 모델은 모델 개발자가 누군가의 반응이 좋은지 나쁜지 아는 데이터에 대해 예측합니다.

모델은 올바른 예측에 대해 보상을 받고 잘못된 예측에 대해 불이익을 받습니다. 이로 인해 알고리즘은 매개변수를 조정합니다. 즉, "손잡이" 중 일부를 돌려서 다시 시도합니다.

머신러닝의 기본을 설명했습니다.

훈련 데이터의 과적합을 방지하기 위해 기계 학습 모델은 검증 데이터 세트와도 비교됩니다. 검증 데이터 세트는 훈련 과정에서 사용되지 않는 별도의 데이터 세트입니다.

이 검증 데이터 세트에서 기계 학습 모델의 성능을 확인함으로써 개발자는 모델이 과적합을 방지하면서 훈련 데이터를 넘어서 학습을 일반화할 수 있는지 확인할 수 있습니다.

이 프로세스는 기계 학습 모델의 우수한 성능을 보장하는 데 성공하지만 기계 학습 모델이 훈련 데이터의 정보를 기억하는 것을 직접적으로 방해하지는 않습니다.

개인 정보 보호 문제

기계 학습 모델의 매개변수 수가 많기 때문에 기계 학습 방법이 훈련된 일부 데이터를 기억할 가능성이 있습니다.

실제로 이는 널리 퍼져 있는 현상으로, 사용자는 데이터를 얻기 위해 맞춤화된 쿼리를 사용하여 머신러닝 모델에서 기억된 데이터를 추출할 수 있습니다.

훈련 데이터에 의료 또는 게놈 데이터와 같은 민감한 정보가 포함되어 있는 경우 모델 훈련에 사용된 데이터의 소유자의 개인정보가 침해될 수 있습니다.

최근 연구에 따르면 특정 문제를 해결하는 최적의 성능을 얻으려면 기계 학습 모델이 훈련 데이터의 측면을 기억하는 것이 실제로 필요하다는 것이 밝혀졌습니다.

이는 머신러닝 방법의 성능과 개인 정보 보호 사이에 근본적인 균형이 있을 수 있음을 나타냅니다.

기계 학습 모델을 사용하면 겉보기에 민감하지 않은 데이터를 사용하여 민감한 정보를 예측할 수도 있습니다.

예를 들어 Target은 Target 아기 등록부에 등록한 고객의 구매 습관을 분석하여 임신 가능성이 높은 고객을 예측할 수 있었습니다.

모델이 이 데이터 세트에 대해 학습되면 보충제나 무향 로션과 같은 품목을 구매하여 임신했다고 의심되는 고객에게 임신 관련 광고를 보낼 수 있었습니다.

개인정보 보호도 가능한가요?

우주 공간의 예술적인 스크린샷에서 빛의 원이 밤하늘을 비춥니다.
이미지: 펙셀스

기계 학습 방법에서 암기를 줄이기 위해 제안된 방법이 많이 있었지만 대부분은 대체로 효과적이지 않았습니다.

현재 이 문제에 대한 가장 유망한 해결책은 개인정보 위험에 대한 수학적 한계를 보장하는 것입니다. 공식적인 개인 정보 보호를 위한 최신 방법은 차등 개인 정보 보호입니다.

차등 개인 정보 보호를 위해서는 훈련 데이터 세트에서 한 개인의 데이터가 변경되더라도 기계 학습 모델이 많이 변경되지 않아야 합니다.

차등 개인 정보 보호 방법은 특정 개인의 기여를 "은폐"하는 알고리즘 학습에 추가 무작위성을 도입하여 이러한 보장을 달성합니다.

방법이 차등 개인 정보 보호로 보호되면 어떤 공격도 해당 개인 정보 보호 보장을 위반할 수 없습니다.

그러나 기계 학습 모델이 차등 개인 정보 보호를 사용하여 교육을 받더라도 Target 예와 같이 민감한 추론을 수행하는 데 방해가 되지는 않습니다.

이러한 개인 정보 침해를 방지하려면 조직에 전송되는 모든 데이터를 보호해야 합니다. 이러한 접근 방식을 로컬 차등 개인 정보 보호라고 하며 Apple과 Google이 이를 구현했습니다.

차등 개인 정보 보호는 데이터가 대규모 데이터 세트에 포함될 때 개인의 개인 정보를 보호하기 위한 방법입니다.

차등 개인 정보 보호는 기계 학습 모델이 한 개인의 데이터에 의존할 수 있는 정도를 제한하므로 암기가 방지됩니다.

불행하게도 이는 기계 학습 방법의 성능을 제한하기도 합니다. 이러한 절충안으로 인해 차등 개인 정보 보호의 유용성에 대한 비판이 있습니다. 이는 종종 성능이 크게 저하되는 결과를 낳기 때문입니다.

앞으로

추론 학습과 개인 정보 보호 문제 사이의 긴장으로 인해 궁극적으로 어떤 맥락에서 어느 것이 더 중요한지에 대한 사회적 질문이 있습니다.

데이터에 민감한 정보가 포함되어 있지 않은 경우 가장 강력한 기계 학습 방법을 사용하는 것이 좋습니다.

그러나 민감한 데이터로 작업할 때는 개인 정보 유출의 결과를 평가하는 것이 중요하며, 데이터를 통해 모델을 교육한 사람들의 개인 정보를 보호하기 위해 일부 기계 학습 성능을 희생해야 할 수도 있습니다.

이것에 대해 어떤 생각이 있습니까? 아래 댓글에 한 줄을 남겨주시거나 Twitter나 Facebook으로 토론 내용을 전달해 주세요.

편집자 추천:

  • AI는 컴퓨터에 후각을 부여하는 어려운 문제를 해결하고 있습니다.
  • AI 선택에 의존하면 의사결정 능력이 약화될 수 있음
  • AI 챗봇은 '논란의 여지가 있는' 결과 생성을 거부합니다.
  • 자율주행 경주로 AI가 강화되어 더욱 안전한 자율주행 자동차 구현

편집자 주: 이 기사는 퍼듀 대학교 통계학과 조교수인 Jordan Awan이 작성했으며 크리에이티브 커먼즈 라이선스에 따라 The Conversation에서 다시 출판되었습니다. 원본 기사를 읽어보세요.

대화

Flipboard, Google 뉴스 또는 Apple 뉴스에서 우리를 팔로우하세요.