機械学習の隠れたコスト: あなたのプライバシー

公開: 2024-06-16

機械学習は、個別化医療、自動運転車、カスタマイズされた広告など、いくつかの分野の限界を押し広げました。

しかし、研究によると、これらのシステムはパターンを学習するためにトレーニングされたデータの側面を記憶しており、プライバシーへの懸念が生じています。

統計と機械学習の目標は、過去のデータから学習して、将来のデータについて新しい予測や推論を行うことです。

この目標を達成するために、統計学者または機械学習の専門家は、データ内の疑わしいパターンを捕捉するモデルを選択します。

モデルは単純化構造をデータに適用することで、パターンを学習して予測を行うことが可能になります。 複雑な機械学習モデルには、固有の長所と短所がいくつかあります。

良い面としては、より複雑なパターンを学習し、画像認識や特定の人が治療にどのように反応するかを予測するなどのタスクで、より豊富なデータセットを使用できるようになります。

ただし、データに過剰適合するリスクもあります。 これは、トレーニングに使用したデータについては正確な予測を行いますが、当面のタスクに直接関係しないデータの追加の側面を学習し始めることを意味します。

これにより、モデルが一般化されなくなります。つまり、トレーニング データとまったく同じではないが、同じタイプの新しいデータではパフォーマンスが低下します。

過学習に関連する予測誤差に対処する技術はありますが、データから多くのことを学べるため、プライバシーの懸念もあります。

機械学習アルゴリズムが推論を行う方法

人間の手は、バイナリ コードを使用してデジタル インターフェイスに触れます。 AI
画像: Pixabay

各モデルには特定の数のパラメータがあります。 パラメータは、変更できるモデルの要素です。 各パラメーターには、モデルがトレーニング データから導出した値または設定があります。

パラメーターは、アルゴリズムのパフォーマンスに影響を与えるために回転できるさまざまなノブと考えることができます。

直線パターンには傾きと切片の 2 つのノブしかありませんが、機械学習モデルには非常に多くのパラメーターがあります。 たとえば、言語モデル GPT-3 には 1,750 億があります。

パラメーターを選択するために、機械学習方法ではトレーニング データの予測誤差を最小限に抑えることを目的としてトレーニング データが使用されます。

たとえば、ある人が病歴に基づいて特定の治療によく反応するかどうかを予測することが目的の場合、機械学習モデルは、モデルの開発者が誰かの反応がよいか悪いかを知っているデータについて予測を行います。

モデルは、正しい予測に対して報酬を与え、不正確な予測に対してペナルティを課すため、アルゴリズムがパラメーターを調整し、つまり「ノブ」の一部を回して再試行します。

機械学習の基礎を解説しました。

トレーニング データの過剰適合を避けるために、機械学習モデルは検証データセットに対してもチェックされます。 検証データセットは、トレーニング プロセスでは使用されない別のデータセットです。

この検証データセットで機械学習モデルのパフォーマンスをチェックすることで、開発者はモデルがトレーニング データを超えて学習を一般化できることを確認し、過剰適合を回避できます。

このプロセスは機械学習モデルの良好なパフォーマンスを確保することに成功しますが、機械学習モデルがトレーニング データ内の情報を記憶することを直接妨げるものではありません。

プライバシーの問題

機械学習モデルには多数のパラメーターがあるため、機械学習メソッドがトレーニングに使用した一部のデータを記憶する可能性があります。

実際、これは広く普及している現象であり、ユーザーはデータを取得するために調整されたクエリを使用して、機械学習モデルから記憶されたデータを抽出できます。

トレーニング データに医療データやゲノム データなどの機密情報が含まれている場合、モデルのトレーニングにデータが使用された人のプライバシーが侵害される可能性があります。

最近の研究では、特定の問題を解決して最適なパフォーマンスを得るには、機械学習モデルがトレーニング データの側面を記憶することが実際に必要であることがわかりました。

これは、機械学習手法のパフォーマンスとプライバシーの間には根本的なトレードオフがある可能性があることを示しています。

機械学習モデルを使用すると、一見機密ではないデータを使用して機密情報を予測することもできます。

たとえば、Target は、Target ベビーレジストリに登録した顧客の購買習慣を分析することで、どの顧客が妊娠している可能性があるかを予測することができました。

モデルがこのデータセットでトレーニングされると、サプリメントや無香料のローションなどの商品を購入したために妊娠していると疑われる顧客に妊娠関連の広告を送信できるようになりました。

プライバシー保護は可能でしょうか?

光の輪が夜空を照らす、芸術的な宇宙空間のスクリーンショットです。
画像: ピクセル

機械学習の暗記を減らすために多くの方法が提案されていますが、そのほとんどは効果がありません。

現在、この問題に対する最も有望な解決策は、プライバシー リスクの数学的制限を確保することです。 正式なプライバシー保護の最先端の方法は、差分プライバシーです。

差分プライバシーでは、トレーニング データセット内で 1 人の個人のデータが変更された場合でも、機械学習モデルがあまり変化しないことが必要です。

差分プライバシー手法は、特定の個人の貢献を「隠蔽」するアルゴリズム学習に追加のランダム性を導入することでこの保証を実現します。

メソッドが差分プライバシーで保護されると、いかなる攻撃もそのプライバシーの保証に違反することはできません。

ただし、機械学習モデルが差分プライバシーを使用してトレーニングされたとしても、Target の例のように機密性の高い推論を行うことが妨げられるわけではありません。

このようなプライバシー侵害を防ぐには、組織に送信されるすべてのデータを保護する必要があります。 このアプローチはローカル差分プライバシーと呼ばれ、Apple と Google が実装しています。

差分プライバシーは、データが大規模なデータセットに含まれている場合に、人々のプライバシーを保護する方法です。

差分プライバシーにより、機械学習モデルが一個人のデータに依存できる度合いが制限されるため、暗記が妨げられます。

残念ながら、これは機械学習手法のパフォーマンスも制限します。 このトレードオフにより、パフォーマンスが大幅に低下することが多いため、差分プライバシーの有用性については批判があります。

今後

推論学習とプライバシーの問題との間の緊張により、最終的にはどの状況においてどちらがより重要であるかという社会的問題が生じます。

データに機密情報が含まれていない場合は、利用可能な最も強力な機械学習手法の使用を推奨するのは簡単です。

ただし、機密データを扱う場合は、プライバシー漏洩の影響を考慮することが重要であり、モデルをトレーニングしたデータの所有者のプライバシーを保護するために、機械学習のパフォーマンスをある程度犠牲にする必要がある場合があります。

これについて何か考えはありますか? 以下のコメント欄に記入するか、Twitter または Facebook にディスカッションを送ってください。

編集者のおすすめ:

  • AI は困難な問題を解決しつつあります – コンピューターに嗅覚を与えます
  • AI の選択に依存すると、私たちの意思決定スキルが弱まる可能性がある
  • AIチャットボットは「物議を醸す」出力の生成を拒否
  • 自動運転自動車レースが AI を強化し、より安全な自動運転車を実現

編集者注:この記事は、パデュー大学の統計学部助教授であるジョーダン・アワンによって書かれ、クリエイティブ・コモンズ・ライセンスの下で The Conversation から再公開されました。 元の記事を読んでください。

会話

Flipboard、Google ニュース、または Apple ニュースでフォローしてください