Die versteckten Kosten des maschinellen Lernens: Ihre Privatsphäre

Veröffentlicht: 2024-06-16

Maschinelles Lernen hat die Grenzen in mehreren Bereichen verschoben, darunter personalisierte Medizin, selbstfahrende Autos und maßgeschneiderte Werbung.

Untersuchungen haben jedoch gezeigt, dass sich diese Systeme Aspekte der Daten merken, mit denen sie trainiert wurden, um Muster zu lernen, was Bedenken hinsichtlich der Privatsphäre aufwirft.

In der Statistik und beim maschinellen Lernen besteht das Ziel darin, aus vergangenen Daten zu lernen, um neue Vorhersagen oder Schlussfolgerungen über zukünftige Daten zu treffen.

Um dieses Ziel zu erreichen, wählt der Statistiker oder Experte für maschinelles Lernen ein Modell aus, um die vermuteten Muster in den Daten zu erfassen.

Ein Modell wendet eine vereinfachende Struktur auf die Daten an, die es ermöglicht, Muster zu lernen und Vorhersagen zu treffen. Komplexe Modelle für maschinelles Lernen haben einige inhärente Vor- und Nachteile.

Positiv ist, dass sie viel komplexere Muster lernen und mit umfangreicheren Datensätzen für Aufgaben wie Bilderkennung und Vorhersage arbeiten können, wie eine bestimmte Person auf eine Behandlung reagieren wird.

Allerdings besteht auch das Risiko einer Überanpassung an die Daten. Das bedeutet, dass sie genaue Vorhersagen über die Daten treffen, mit denen sie trainiert wurden, aber beginnen, zusätzliche Aspekte der Daten zu lernen, die nicht direkt mit der jeweiligen Aufgabe zusammenhängen.

Dies führt zu Modellen, die nicht verallgemeinert sind, was bedeutet, dass sie bei neuen Daten vom gleichen Typ, aber nicht genau vom gleichen Typ wie die Trainingsdaten, eine schlechte Leistung erbringen.

Zwar gibt es Techniken, um den mit der Überanpassung verbundenen Vorhersagefehler zu beheben, es bestehen jedoch auch Bedenken hinsichtlich des Datenschutzes, weil man so viel aus den Daten lernen kann.

Wie Algorithmen des maschinellen Lernens Rückschlüsse ziehen

Menschliche Hand berührt digitale Schnittstelle mit Binärcode. KI
Bild: Pixabay

Jedes Modell verfügt über eine bestimmte Anzahl von Parametern. Ein Parameter ist ein Element eines Modells, das geändert werden kann. Jeder Parameter hat einen Wert oder eine Einstellung, die das Modell aus den Trainingsdaten ableitet.

Parameter können als verschiedene Knöpfe betrachtet werden, die gedreht werden können, um die Leistung des Algorithmus zu beeinflussen.

Während ein geradliniges Muster nur zwei Knöpfe hat, die Steigung und den Achsenabschnitt, verfügen Modelle für maschinelles Lernen über sehr viele Parameter. Beispielsweise hat das Sprachmodell GPT-3 175 Milliarden.

Um die Parameter auszuwählen, nutzen Methoden des maschinellen Lernens Trainingsdaten mit dem Ziel, den Vorhersagefehler der Trainingsdaten zu minimieren.

Wenn das Ziel beispielsweise darin besteht, anhand seiner Krankengeschichte vorherzusagen, ob eine Person gut auf eine bestimmte medizinische Behandlung ansprechen würde, würde das maschinelle Lernmodell Vorhersagen über die Daten treffen, bei denen die Entwickler des Modells wissen, ob jemand gut oder schlecht reagiert hat.

Das Modell wird für korrekte Vorhersagen belohnt und für falsche Vorhersagen bestraft, was dazu führt, dass der Algorithmus seine Parameter anpasst – das heißt, an einigen „Knöpfen“ dreht – und es erneut versucht.

Die Grundlagen des maschinellen Lernens erklärt.

Um eine Überanpassung der Trainingsdaten zu vermeiden, werden maschinelle Lernmodelle auch anhand eines Validierungsdatensatzes überprüft. Der Validierungsdatensatz ist ein separater Datensatz, der nicht im Trainingsprozess verwendet wird.

Durch die Überprüfung der Leistung des maschinellen Lernmodells anhand dieses Validierungsdatensatzes können Entwickler sicherstellen, dass das Modell in der Lage ist, sein Lernen über die Trainingsdaten hinaus zu verallgemeinern und so eine Überanpassung zu vermeiden.

Dieser Prozess gewährleistet zwar erfolgreich eine gute Leistung des maschinellen Lernmodells, hindert das maschinelle Lernmodell jedoch nicht direkt daran, Informationen in den Trainingsdaten zu speichern.

Datenschutzbedenken

Aufgrund der großen Anzahl von Parametern in Modellen für maschinelles Lernen besteht die Möglichkeit, dass die Methode des maschinellen Lernens einige Daten speichert, auf denen sie trainiert wurde.

Tatsächlich ist dies ein weit verbreitetes Phänomen, und Benutzer können die gespeicherten Daten aus dem Modell des maschinellen Lernens extrahieren, indem sie auf die Datenabfrage zugeschnittene Abfragen verwenden.

Wenn die Trainingsdaten vertrauliche Informationen wie medizinische oder genomische Daten enthalten, könnte die Privatsphäre der Personen gefährdet sein, deren Daten zum Trainieren des Modells verwendet wurden.

Aktuelle Untersuchungen haben gezeigt, dass es für Modelle des maschinellen Lernens tatsächlich notwendig ist, sich Aspekte der Trainingsdaten zu merken, um bei der Lösung bestimmter Probleme eine optimale Leistung zu erzielen.

Dies weist darauf hin, dass möglicherweise ein grundlegender Kompromiss zwischen der Leistung einer maschinellen Lernmethode und dem Datenschutz besteht.

Modelle des maschinellen Lernens ermöglichen es auch, sensible Informationen anhand scheinbar nicht sensibler Daten vorherzusagen.

Target konnte beispielsweise vorhersagen, welche Kunden wahrscheinlich schwanger waren, indem es die Kaufgewohnheiten von Kunden analysierte, die sich im Target-Babyregister registriert hatten.

Sobald das Modell anhand dieses Datensatzes trainiert wurde, konnte es schwangerschaftsbezogene Werbung an Kundinnen senden, von denen es vermutete, dass sie schwanger waren, weil sie Artikel wie Nahrungsergänzungsmittel oder nicht parfümierte Lotionen kauften.

Ist Datenschutz überhaupt möglich?

Ein Lichtkreis beleuchtet den Nachthimmel in einem künstlerischen Screenshot des Weltraums.
Bild: Pexels

Zwar wurden viele Methoden vorgeschlagen, um das Auswendiglernen bei Methoden des maschinellen Lernens zu reduzieren, die meisten waren jedoch weitgehend wirkungslos.

Die derzeit vielversprechendste Lösung für dieses Problem besteht darin, eine mathematische Begrenzung des Datenschutzrisikos sicherzustellen. Die modernste Methode zum formellen Schutz der Privatsphäre ist die differenzielle Privatsphäre.

Differenzielle Privatsphäre erfordert, dass sich ein Modell für maschinelles Lernen nicht wesentlich ändert, wenn die Daten einer Person im Trainingsdatensatz geändert werden.

Differenzielle Datenschutzmethoden erreichen diese Garantie, indem sie zusätzliche Zufälligkeiten in das Algorithmus-Lernen einführen, die den Beitrag einer bestimmten Person „verdecken“.

Sobald eine Methode durch differenziellen Datenschutz geschützt ist, kann kein möglicher Angriff diese Datenschutzgarantie verletzen.

Selbst wenn ein Modell für maschinelles Lernen mithilfe der differenziellen Privatsphäre trainiert wird, hindert dies es jedoch nicht daran, sensible Schlussfolgerungen zu ziehen, wie im Target-Beispiel.

Um diese Datenschutzverletzungen zu verhindern, müssen alle an die Organisation übermittelten Daten geschützt werden. Dieser Ansatz wird als lokaler differenzieller Datenschutz bezeichnet und von Apple und Google implementiert.

Differential Privacy ist eine Methode zum Schutz der Privatsphäre von Personen, wenn ihre Daten in großen Datensätzen enthalten sind.

Da die differenzielle Privatsphäre die Abhängigkeit des maschinellen Lernmodells von den Daten einer Person einschränkt, verhindert dies das Auswendiglernen.

Leider schränkt es auch die Leistung der maschinellen Lernmethoden ein. Aufgrund dieses Kompromisses gibt es Kritik am Nutzen der differenziellen Privatsphäre, da sie häufig zu einem erheblichen Leistungsabfall führt.

Vorwärts gehen

Aufgrund der Spannung zwischen inferenziellem Lernen und Datenschutzbedenken stellt sich letztlich die gesellschaftliche Frage, was in welchen Kontexten wichtiger ist.

Wenn Daten keine sensiblen Informationen enthalten, ist es einfach, die Verwendung der leistungsstärksten verfügbaren Methoden des maschinellen Lernens zu empfehlen.

Bei der Arbeit mit sensiblen Daten ist es jedoch wichtig, die Folgen von Datenschutzlecks abzuwägen, und es kann notwendig sein, einen Teil der Leistung des maschinellen Lernens zu opfern, um die Privatsphäre der Personen zu schützen, deren Daten das Modell trainiert haben.

Haben Sie irgendwelche Gedanken dazu? Schreiben Sie uns unten in die Kommentare oder tragen Sie die Diskussion auf Twitter oder Facebook weiter.

Empfehlungen der Redaktion:

  • KI löst ein schwieriges Problem: Sie verleiht Computern einen Geruchssinn
  • Wenn wir uns auf KI-Entscheidungen verlassen, kann dies unsere Entscheidungsfähigkeit schwächen
  • KI-Chatbots weigern sich, „kontroverse“ Ergebnisse zu produzieren
  • Autonome Autorennen stärken die KI für sicherere selbstfahrende Autos

Anmerkung des Herausgebers: Dieser Artikel wurde von Jordan Awan , Assistenzprofessor für Statistik an der Purdue University, verfasst und von The Conversation unter einer Creative Commons-Lizenz erneut veröffentlicht. Lesen Sie den Originalartikel.

Die Unterhaltung

Folgen Sie uns auf Flipboard, Google News oder Apple News