机器学习的隐性成本:您的隐私
已发表: 2024-06-16机器学习突破了多个领域的界限,包括个性化医疗、自动驾驶汽车和定制广告。
然而,研究表明,这些系统会记住训练数据的各个方面,以便学习模式,这引发了对隐私的担忧。
在统计学和机器学习中,目标是从过去的数据中学习,以对未来的数据做出新的预测或推断。
为了实现这一目标,统计学家或机器学习专家选择一个模型来捕获数据中的可疑模式。
模型对数据应用简化的结构,这使得学习模式和做出预测成为可能。 复杂的机器学习模型有一些固有的优点和缺点。
从积极的一面来看,他们可以学习更复杂的模式,并使用更丰富的数据集来完成图像识别和预测特定人对治疗的反应等任务。
然而,它们也存在过度拟合数据的风险。 这意味着他们可以对接受训练的数据做出准确的预测,但开始学习与手头任务不直接相关的数据的其他方面。
这导致模型不通用,这意味着它们在与训练数据类型相同但不完全相同的新数据上表现不佳。
虽然有一些技术可以解决与过度拟合相关的预测错误,但从数据中学习大量信息也存在隐私问题。
机器学习算法如何进行推理
每个模型都有一定数量的参数。 参数是模型中可以更改的元素。 每个参数都有一个值或设置,该值或设置是模型从训练数据中得出的。
参数可以被认为是可以转动以影响算法性能的不同旋钮。
虽然直线模式只有斜率和截距两个旋钮,但机器学习模型却有很多参数。 例如语言模型GPT-3,有1750亿。
为了选择参数,机器学习方法使用训练数据,目标是最小化训练数据的预测误差。
例如,如果目标是根据一个人的病史来预测一个人是否会对某种医疗治疗反应良好,那么机器学习模型将对数据进行预测,模型开发人员知道某人的反应是好还是差。
该模型会因正确的预测而受到奖励,并因错误的预测而受到惩罚,这会导致算法调整其参数(即转动一些“旋钮”)并重试。
为了避免训练数据过度拟合,机器学习模型也会根据验证数据集进行检查。 验证数据集是一个单独的数据集,不在训练过程中使用。
通过检查机器学习模型在此验证数据集上的性能,开发人员可以确保模型能够将其学习推广到训练数据之外,从而避免过度拟合。
虽然这个过程成功地确保了机器学习模型的良好性能,但它并没有直接阻止机器学习模型记住训练数据中的信息。
隐私问题
由于机器学习模型中有大量参数,机器学习方法有可能会记住一些训练过的数据。
事实上,这是一种普遍存在的现象,用户可以通过使用为获取数据而定制的查询来从机器学习模型中提取记忆的数据。
如果训练数据包含敏感信息,例如医学或基因组数据,那么使用其数据来训练模型的人员的隐私可能会受到损害。
最近的研究表明,机器学习模型实际上有必要记住训练数据的各个方面,以获得解决某些问题的最佳性能。
这表明机器学习方法的性能和隐私之间可能存在根本性的权衡。
机器学习模型还可以使用看似不敏感的数据来预测敏感信息。
例如,Target 能够通过分析在 Target 婴儿登记处注册的客户的购买习惯来预测哪些客户可能怀孕。
一旦模型接受了该数据集的训练,它就能够向怀疑怀孕的顾客发送与怀孕相关的广告,因为他们购买了补充剂或无味乳液等商品。
隐私保护还有可能吗?
尽管已经提出了许多减少机器学习方法中的记忆的方法,但大多数都基本上无效。
目前,解决这个问题最有希望的解决方案是确保隐私风险的数学限制。 形式隐私保护的最先进方法是差分隐私。
差异隐私要求如果训练数据集中一个人的数据发生变化,机器学习模型不会发生太大变化。
差分隐私方法通过在算法学习中引入额外的随机性来“掩盖”任何特定个体的贡献来实现这种保证。
一旦一种方法受到差分隐私的保护,任何可能的攻击都不会违反该隐私保证。
然而,即使机器学习模型是使用差异隐私进行训练的,但这并不能阻止它做出敏感的推论,例如 Target 示例中的情况。
为了防止这些隐私侵犯,传输到组织的所有数据都需要受到保护。 这种方法被称为本地差分隐私,苹果和谷歌都已经实现了。
由于差异隐私限制了机器学习模型对个人数据的依赖程度,这会阻碍记忆。
不幸的是,它也限制了机器学习方法的性能。 由于这种权衡,差分隐私的实用性受到了批评,因为它通常会导致性能显着下降。
向前走
由于推理学习和隐私问题之间的紧张关系,最终存在一个社会问题:在哪种情况下哪种更重要。
当数据不包含敏感信息时,很容易推荐使用最强大的机器学习方法。
然而,在处理敏感数据时,权衡隐私泄露的后果非常重要,并且可能有必要牺牲一些机器学习性能,以保护使用数据训练模型的人员的隐私。
对此有什么想法吗? 请在下面的评论中给我们留言,或者将讨论转移到我们的 Twitter 或 Facebook。
编辑推荐:
- 人工智能正在解决一个难题——赋予计算机嗅觉
- 依赖人工智能的选择可能会削弱我们的决策能力
- 人工智能聊天机器人拒绝产生“有争议的”输出
- 自动赛车增强人工智能,打造更安全的无人驾驶汽车
编者注:本文由普渡大学统计学助理教授 Jordan Awan 撰写,并根据知识共享许可从 The Conversation 重新发布。 阅读原文。