Costul ascuns al învățării automate: confidențialitatea dvs

Publicat: 2024-06-16

Învățarea automată a depășit granițele în mai multe domenii, inclusiv medicina personalizată, mașinile cu conducere autonomă și reclamele personalizate.

Cercetările au arătat, totuși, că aceste sisteme memorează aspecte ale datelor cu care au fost instruiți pentru a învăța tipare, ceea ce ridică preocupări pentru confidențialitate.

În statistici și învățare automată, obiectivul este de a învăța din datele trecute pentru a face noi predicții sau inferențe despre datele viitoare.

Pentru a atinge acest obiectiv, statisticianul sau expertul în învățare automată selectează un model pentru a capta modelele suspectate din date.

Un model aplică o structură de simplificare a datelor, ceea ce face posibilă învățarea tiparelor și realizarea de predicții. Modelele complexe de învățare automată au unele avantaje și dezavantaje inerente.

Pe partea pozitivă, aceștia pot învăța modele mult mai complexe și pot lucra cu seturi de date mai bogate pentru sarcini precum recunoașterea imaginilor și prezicerea modului în care o anumită persoană va răspunde la un tratament.

Cu toate acestea, au și riscul de a se supraadapta la date. Aceasta înseamnă că fac predicții precise despre datele cu care au fost instruiți, dar încep să învețe aspecte suplimentare ale datelor care nu sunt direct legate de sarcina în cauză.

Acest lucru duce la modele care nu sunt generalizate, ceea ce înseamnă că au performanțe slabe pe date noi care sunt de același tip, dar nu exact aceleași cu datele de antrenament.

Deși există tehnici pentru a aborda eroarea predictivă asociată cu supraadaptarea, există și preocupări legate de confidențialitate din cauza capacității de a învăța atât de multe din date.

Cum algoritmii de învățare automată fac inferențe

Mâna omului atingând interfața digitală cu cod binar. AI
Imagine: Pixabay

Fiecare model are un anumit număr de parametri. Un parametru este un element al unui model care poate fi modificat. Fiecare parametru are o valoare sau o setare pe care modelul o derivă din datele de antrenament.

Parametrii pot fi considerați ca diferite butoane care pot fi rotite pentru a afecta performanța algoritmului.

În timp ce un model în linie dreaptă are doar două butoane, panta și interceptarea, modelele de învățare automată au o mulțime de parametri. De exemplu, modelul de limbă GPT-3, are 175 miliarde.

Pentru a alege parametrii, metodele de învățare automată folosesc date de antrenament cu scopul de a minimiza eroarea predictivă a datelor de antrenament.

De exemplu, dacă scopul este de a prezice dacă o persoană va răspunde bine la un anumit tratament medical pe baza istoricului său medical, modelul de învățare automată ar face predicții despre datele în care dezvoltatorii modelului știu dacă cineva a răspuns bine sau slab.

Modelul este recompensat pentru predicțiile care sunt corecte și penalizat pentru predicțiile incorecte, ceea ce determină algoritmul să-și ajusteze parametrii – adică să rotească unele dintre „butoane” – și să încerce din nou.

Elementele de bază ale învățării automate explicate.

Pentru a evita supraadaptarea datelor de antrenament, modelele de învățare automată sunt verificate și cu un set de date de validare. Setul de date de validare este un set de date separat care nu este utilizat în procesul de instruire.

Prin verificarea performanței modelului de învățare automată pe acest set de date de validare, dezvoltatorii se pot asigura că modelul este capabil să își generalizeze învățarea dincolo de datele de antrenament, evitând supraadaptarea.

Deși acest proces reușește să asigure o performanță bună a modelului de învățare automată, nu împiedică în mod direct modelul de învățare automată să memoreze informații în datele de antrenament.

Preocupări de confidențialitate

Datorită numărului mare de parametri din modelele de învățare automată, există posibilitatea ca metoda de învățare automată să memoreze unele date pe care a fost antrenat.

De fapt, acesta este un fenomen larg răspândit, iar utilizatorii pot extrage datele memorate din modelul de învățare automată folosind interogări adaptate pentru a obține datele.

Dacă datele de antrenament conțin informații sensibile, cum ar fi date medicale sau genomice, atunci confidențialitatea persoanelor ale căror date au fost utilizate pentru a antrena modelul ar putea fi compromisă.

Cercetări recente au arătat că este de fapt necesar ca modelele de învățare automată să memoreze aspecte ale datelor de antrenament pentru a obține performanțe optime în rezolvarea anumitor probleme.

Acest lucru indică faptul că poate exista un compromis fundamental între performanța unei metode de învățare automată și confidențialitate.

Modelele de învățare automată fac, de asemenea, posibilă prezicerea informațiilor sensibile folosind date aparent nesensibile.

De exemplu, Target a reușit să prezică care sunt clienții probabil însărcinați analizând obiceiurile de cumpărare ale clienților care s-au înregistrat în registrul pentru copii Target.

Odată ce modelul a fost instruit pe acest set de date, a putut să trimită reclame legate de sarcină clienților pe care le bănuia că sunt însărcinate, deoarece au achiziționat articole precum suplimente sau loțiuni fără parfum.

Este chiar posibilă protecția vieții private?

Un cerc de lumină luminează un cer de noapte într-o captură de ecran artistică a spațiului cosmic.
Imagine: Pexels

Deși au existat multe metode propuse pentru a reduce memorarea în metodele de învățare automată, cele mai multe au fost în mare parte ineficiente.

În prezent, cea mai promițătoare soluție la această problemă este asigurarea unei limite matematice a riscului de confidențialitate. Metoda de ultimă oră pentru protecția formală a vieții private este confidențialitatea diferențială.

Confidențialitatea diferențială necesită ca un model de învățare automată să nu se schimbe prea mult dacă datele unui individ sunt modificate în setul de date de antrenament.

Metodele diferențiale de confidențialitate realizează această garanție prin introducerea aleatoriei suplimentare în învățarea algoritmului care „acoperă” contribuția oricărui individ anume.

Odată ce o metodă este protejată cu confidențialitate diferențială, niciun atac posibil nu poate încălca această garanție de confidențialitate.

Chiar dacă un model de învățare automată este antrenat folosind confidențialitate diferențială, totuși, asta nu îl împiedică să facă inferențe sensibile, cum ar fi în exemplul Target.

Pentru a preveni aceste încălcări ale confidențialității, toate datele transmise organizației trebuie protejate. Această abordare se numește confidențialitate diferențială locală, iar Apple și Google au implementat-o.

Confidențialitatea diferențială este o metodă de protejare a confidențialității persoanelor atunci când datele lor sunt incluse în seturi mari de date.

Deoarece confidențialitatea diferențială limitează cât de mult poate depinde modelul de învățare automată de datele unui individ, acest lucru împiedică memorarea.

Din păcate, limitează și performanța metodelor de învățare automată. Din cauza acestui compromis, există critici cu privire la utilitatea confidențialității diferențiate, deoarece adesea duce la o scădere semnificativă a performanței.

Mergand inainte

Din cauza tensiunii dintre învățarea inferențială și preocupările privind confidențialitatea, există în cele din urmă o întrebare societală despre care este mai important în ce contexte.

Când datele nu conțin informații sensibile, este ușor de recomandat să utilizați cele mai puternice metode de învățare automată disponibile.

Cu toate acestea, atunci când lucrați cu date sensibile, este important să cântăriți consecințele scurgerilor de confidențialitate și poate fi necesar să sacrificați o anumită performanță de învățare automată pentru a proteja confidențialitatea persoanelor ale căror date au instruit modelul.

Ai vreo părere despre asta? Trimiteți-ne un rând mai jos în comentarii sau transmiteți discuția pe Twitter sau Facebook.

Recomandările editorilor:

  • Inteligența artificială soluționează o problemă dificilă – dând computerelor simțul mirosului
  • Bazându-ne pe alegerile AI ne poate slăbi abilitățile de luare a deciziilor
  • Chatbot-ii AI refuză să producă rezultate „controversate”.
  • Cursele auto autonome stimulează AI pentru mașini mai sigure fără șofer

Nota editorului: Acest articol a fost scris de Jordan Awan , profesor asistent de statistică la Universitatea Purdue și republicat din The Conversation sub o licență Creative Commons. Citiți articolul original.

Conversatia

Urmărește-ne pe Flipboard, Google News sau Apple News