Ukryty koszt uczenia maszynowego: Twoja prywatność

Opublikowany: 2024-06-16

Uczenie maszynowe przesunęło granice w kilku dziedzinach, w tym w medycynie spersonalizowanej, samochodach autonomicznych i reklamach dostosowanych do indywidualnych potrzeb.

Badania wykazały jednak, że systemy te zapamiętują aspekty danych, na podstawie których zostały przeszkolone, w celu uczenia się wzorców, co budzi obawy dotyczące prywatności.

Celem statystyk i uczenia maszynowego jest wyciąganie wniosków z danych z przeszłości w celu tworzenia nowych przewidywań lub wniosków na temat przyszłych danych.

Aby osiągnąć ten cel, statystyk lub ekspert ds. uczenia maszynowego wybiera model, który ma uchwycić podejrzane wzorce w danych.

Model stosuje do danych upraszczającą strukturę, która umożliwia uczenie się wzorców i przewidywanie. Złożone modele uczenia maszynowego mają pewne nieodłączne zalety i wady.

Pozytywną stroną jest to, że mogą uczyć się znacznie bardziej złożonych wzorców i pracować z bogatszymi zbiorami danych na potrzeby takich zadań, jak rozpoznawanie obrazu i przewidywanie reakcji konkretnej osoby na leczenie.

Jednakże wiążą się one również z ryzykiem nadmiernego dopasowania do danych. Oznacza to, że dokonują dokładnych przewidywań dotyczących danych, na podstawie których zostali przeszkoleni, ale zaczynają uczyć się dodatkowych aspektów danych, które nie są bezpośrednio związane z wykonywanym zadaniem.

Prowadzi to do modeli, które nie są uogólnione, co oznacza, że ​​słabo radzą sobie z nowymi danymi tego samego typu, ale nie dokładnie takimi samymi jak dane szkoleniowe.

Chociaż istnieją techniki pozwalające wyeliminować błąd predykcyjny związany z nadmiernym dopasowaniem, istnieją również obawy dotyczące prywatności wynikające z możliwości wyciągnięcia tak wielu informacji z danych.

Jak algorytmy uczenia maszynowego wyciągają wnioski

Ludzka ręka dotykająca interfejsu cyfrowego z kodem binarnym. sztuczna inteligencja
Obraz: Pixabay

Każdy model ma określoną liczbę parametrów. Parametr to element modelu, który można zmieniać. Każdy parametr ma wartość lub ustawienie, które model wyprowadza z danych szkoleniowych.

Parametry można traktować jako różne pokrętła, którymi można obracać, aby wpłynąć na wydajność algorytmu.

Podczas gdy wzór linii prostej ma tylko dwa pokrętła, nachylenie i punkt przecięcia, modele uczenia maszynowego mają bardzo wiele parametrów. Na przykład model języka GPT-3 ma 175 miliardów.

W celu doboru parametrów metody uczenia maszynowego wykorzystują dane uczące w celu minimalizacji błędu predykcyjnego danych uczących.

Na przykład, jeśli celem jest przewidzenie, czy dana osoba dobrze zareaguje na określone leczenie na podstawie jej historii medycznej, model uczenia maszynowego będzie dokonywał prognoz na podstawie danych, na podstawie których twórcy modelu będą wiedzieć, czy dana osoba zareagowała dobrze, czy źle.

Model jest nagradzany za trafne przewidywania i karany za błędne, co skłania algorytm do dostosowania jego parametrów – czyli przekręcenia niektórych „pokręteł” – i ponownej próby.

Wyjaśniono podstawy uczenia maszynowego.

Aby uniknąć nadmiernego dopasowania danych szkoleniowych, modele uczenia maszynowego są sprawdzane również w oparciu o zbiór danych walidacyjnych. Zbiór danych walidacyjnych to odrębny zbiór danych, który nie jest używany w procesie uczenia.

Sprawdzając wydajność modelu uczenia maszynowego w tym zbiorze danych walidacyjnych, programiści mogą upewnić się, że model będzie w stanie uogólnić swoje uczenie się poza dane szkoleniowe, unikając nadmiernego dopasowania.

Chociaż proces ten zapewnia dobrą wydajność modelu uczenia maszynowego, nie uniemożliwia to bezpośrednio zapamiętywania informacji zawartych w danych szkoleniowych przez model uczenia maszynowego.

Obawy dotyczące prywatności

Ze względu na dużą liczbę parametrów w modelach uczenia maszynowego istnieje ryzyko, że metoda uczenia maszynowego zapamiętuje niektóre dane, na których została przeszkolona.

W rzeczywistości jest to zjawisko powszechne, a użytkownicy mogą wyodrębnić zapamiętane dane z modelu uczenia maszynowego, korzystając z zapytań dostosowanych do uzyskania danych.

Jeśli dane szkoleniowe zawierają wrażliwe informacje, takie jak dane medyczne lub genomiczne, prywatność osób, których dane zostały wykorzystane do szkolenia modelu, może zostać naruszona.

Niedawne badania wykazały, że w rzeczywistości konieczne jest, aby modele uczenia maszynowego zapamiętywały aspekty danych szkoleniowych, aby uzyskać optymalną wydajność w rozwiązywaniu określonych problemów.

Wskazuje to, że może istnieć zasadniczy kompromis pomiędzy wydajnością metody uczenia maszynowego a prywatnością.

Modele uczenia maszynowego umożliwiają również przewidywanie wrażliwych informacji na podstawie pozornie niewrażliwych danych.

Na przykład firma Target była w stanie przewidzieć, które klientki prawdopodobnie są w ciąży, analizując zwyczaje zakupowe klientów, którzy zarejestrowali się w rejestrze dzieci Target.

Po przeszkoleniu modelu na tym zbiorze danych był on w stanie wysyłać reklamy związane z ciążą do klientów, co do których podejrzewał, że są w ciąży, ponieważ kupowali takie produkty, jak suplementy lub bezzapachowe balsamy.

Czy ochrona prywatności jest w ogóle możliwa?

Krąg światła oświetla nocne niebo na artystycznym zrzucie ekranu przestrzeni kosmicznej.
Zdjęcie: Pexels

Chociaż zaproponowano wiele metod ograniczania zapamiętywania w metodach uczenia maszynowego, większość z nich okazała się w dużej mierze nieskuteczna.

Obecnie najbardziej obiecującym rozwiązaniem tego problemu jest zapewnienie matematycznego limitu ryzyka prywatności. Najnowocześniejszą metodą formalnej ochrony prywatności jest prywatność różnicowa.

Prywatność różnicowa wymaga, aby model uczenia maszynowego nie zmieniał się zbytnio, jeśli dane jednej osoby ulegną zmianie w zbiorze danych szkoleniowych.

Różnicowe metody prywatności zapewniają tę gwarancję poprzez wprowadzenie dodatkowej losowości do uczenia się algorytmu, która „przykrywa” wkład dowolnej konkretnej osoby.

Gdy metoda jest chroniona za pomocą mechanizmu różnicowego, żaden możliwy atak nie może naruszyć tej gwarancji prywatności.

Nawet jeśli model uczenia maszynowego jest szkolony przy użyciu prywatności różnicowej, nie uniemożliwia to mu wyciągania wrażliwych wniosków, jak w przykładzie Target.

Aby zapobiec takim naruszeniom prywatności, wszystkie dane przesyłane do organizacji muszą być chronione. Takie podejście nazywa się lokalną prywatnością różnicową i zostało wdrożone przez firmy Apple i Google.

Prywatność różnicowa to metoda ochrony prywatności ludzi, gdy ich dane są zawarte w dużych zbiorach danych.

Ponieważ zróżnicowana prywatność ogranicza stopień, w jakim model uczenia maszynowego może zależeć od danych jednej osoby, zapobiega to zapamiętywaniu.

Niestety ogranicza to również wydajność metod uczenia maszynowego. Z powodu tego kompromisu pojawiają się krytyczne uwagi dotyczące użyteczności różnicowej prywatności, ponieważ często powoduje ona znaczny spadek wydajności.

Iść naprzód

Ze względu na napięcie między uczeniem się na podstawie wniosków a obawami dotyczącymi prywatności ostatecznie pojawia się społeczne pytanie, co jest ważniejsze w jakich kontekstach.

Gdy dane nie zawierają wrażliwych informacji, łatwo jest zalecić użycie najpotężniejszych dostępnych metod uczenia maszynowego.

Jednak podczas pracy z wrażliwymi danymi ważne jest rozważenie konsekwencji wycieków prywatności i może być konieczne poświęcenie części wydajności uczenia maszynowego w celu ochrony prywatności osób, których dane trenowały model.

Masz jakieś przemyślenia na ten temat? Napisz do nas poniżej w komentarzach lub przenieś dyskusję na nasz Twitter lub Facebook.

Zalecenia redaktorów:

  • Sztuczna inteligencja rozwiązuje trudny problem – daje komputerom zmysł węchu
  • Poleganie na wyborach AI może osłabić nasze umiejętności podejmowania decyzji
  • Chatboty AI odmawiają tworzenia „kontrowersyjnych” wyników
  • Autonomiczne wyścigi samochodowe wzmacniają sztuczną inteligencję, zapewniając bezpieczniejsze samochody autonomiczne

Nota wydawcy: Ten artykuł został napisany przez Jordana Awana , adiunkta statystyki na Uniwersytecie Purdue i opublikowany ponownie w The Conversation na licencji Creative Commons. Przeczytaj oryginalny artykuł.

Rozmowa

Śledź nas na Flipboard, Google News lub Apple News