Скрытая стоимость машинного обучения: ваша конфиденциальность
Опубликовано: 2024-06-16Машинное обучение раздвинуло границы в нескольких областях, включая персонализированную медицину, беспилотные автомобили и персонализированную рекламу.
Однако исследования показали, что эти системы запоминают аспекты данных, на которых они были обучены, чтобы изучить закономерности, что вызывает опасения по поводу конфиденциальности.
Цель статистики и машинного обучения — изучить прошлые данные, чтобы сделать новые прогнозы или выводы о будущих данных.
Для достижения этой цели статистик или эксперт по машинному обучению выбирает модель для выявления предполагаемых закономерностей в данных.
Модель применяет к данным упрощающую структуру, что позволяет изучать закономерности и делать прогнозы. Сложные модели машинного обучения имеют некоторые присущие плюсы и минусы.
Положительным моментом является то, что они могут изучать гораздо более сложные закономерности и работать с более богатыми наборами данных для таких задач, как распознавание изображений и прогнозирование того, как конкретный человек отреагирует на лечение.
Однако они также имеют риск переобучения данным. Это означает, что они делают точные прогнозы относительно данных, с которыми их обучали, но начинают изучать дополнительные аспекты данных, которые не имеют прямого отношения к поставленной задаче.
Это приводит к тому, что модели не являются обобщенными, то есть они плохо работают с новыми данными того же типа, но не совсем такими же, как данные обучения.
Хотя существуют методы устранения ошибки прогнозирования, связанной с переоснащением, существуют также проблемы конфиденциальности, связанные с возможностью многому научиться на основе данных.
Как алгоритмы машинного обучения делают выводы
Каждая модель имеет определенное количество параметров. Параметр — это элемент модели, который можно изменить. Каждый параметр имеет значение или настройку, которую модель извлекает из обучающих данных.
Параметры можно рассматривать как различные ручки, которые можно поворачивать, чтобы влиять на производительность алгоритма.
В то время как у линейного шаблона есть только две ручки: наклон и точка пересечения, модели машинного обучения имеют очень много параметров. Например, языковая модель GPT-3 имеет 175 миллиардов.
Для выбора параметров методы машинного обучения используют обучающие данные с целью минимизировать ошибку прогнозирования обучающих данных.
Например, если цель состоит в том, чтобы предсказать, будет ли человек хорошо реагировать на определенное медицинское лечение на основе его истории болезни, модель машинного обучения будет делать прогнозы на основе данных, где разработчики модели знают, хорошо или плохо кто-то отреагировал.
Модель вознаграждается за правильные прогнозы и наказывается за неправильные, что заставляет алгоритм корректировать свои параметры — то есть поворачивать некоторые «ручки» — и повторять попытку.
Чтобы избежать переобучения данных обучения, модели машинного обучения также проверяются по набору проверочных данных. Набор данных проверки — это отдельный набор данных, который не используется в процессе обучения.
Проверяя производительность модели машинного обучения на этом наборе проверочных данных, разработчики могут гарантировать, что модель способна обобщить свое обучение за пределами обучающих данных, избегая переобучения.
Хотя этот процесс обеспечивает хорошую производительность модели машинного обучения, он не мешает модели машинного обучения напрямую запоминать информацию в обучающих данных.
Проблемы конфиденциальности
Из-за большого количества параметров в моделях машинного обучения существует вероятность того, что метод машинного обучения запоминает некоторые данные, на которых он обучался.
На самом деле это широко распространенное явление, и пользователи могут извлекать запомненные данные из модели машинного обучения, используя запросы, адаптированные для получения данных.
Если данные обучения содержат конфиденциальную информацию, например медицинские или геномные данные, конфиденциальность людей, чьи данные использовались для обучения модели, может быть поставлена под угрозу.
Недавние исследования показали, что моделям машинного обучения действительно необходимо запоминать аспекты обучающих данных, чтобы добиться оптимальной производительности при решении определенных задач.
Это указывает на то, что может существовать фундаментальный компромисс между производительностью метода машинного обучения и конфиденциальностью.
Модели машинного обучения также позволяют прогнозировать конфиденциальную информацию, используя, казалось бы, неконфиденциальные данные.
Например, Target удалось предсказать, какие клиенты, скорее всего, беременны, проанализировав покупательские привычки клиентов, зарегистрированных в реестре детей Target.
После обучения модели на этом наборе данных она смогла рассылать рекламу, связанную с беременностью, клиентам, которые, как она подозревала, были беременны, поскольку они покупали такие товары, как пищевые добавки или лосьоны без запаха.
Возможна ли вообще защита конфиденциальности?
Хотя было предложено множество методов сокращения запоминания в методах машинного обучения, большинство из них оказались в значительной степени неэффективными.
В настоящее время наиболее многообещающим решением этой проблемы является обеспечение математического ограничения риска конфиденциальности. Современный метод формальной защиты конфиденциальности — это дифференцированная конфиденциальность.
Дифференциальная конфиденциальность требует, чтобы модель машинного обучения не сильно менялась, если данные одного человека изменяются в наборе обучающих данных.
Методы дифференциальной конфиденциальности достигают этой гарантии за счет введения дополнительной случайности в обучение алгоритма, которая «скрывает» вклад любого конкретного человека.
Если метод защищен дифференциальной конфиденциальностью, никакая возможная атака не сможет нарушить эту гарантию конфиденциальности.
Однако даже если модель машинного обучения обучена с использованием дифференциальной конфиденциальности, это не мешает ей делать конфиденциальные выводы, как в примере Target.
Чтобы предотвратить эти нарушения конфиденциальности, все данные, передаваемые в организацию, должны быть защищены. Этот подход называется локальной дифференциальной конфиденциальностью, и Apple и Google реализовали его.
Поскольку дифференциальная конфиденциальность ограничивает степень зависимости модели машинного обучения от данных одного человека, это препятствует запоминанию.
К сожалению, это также ограничивает производительность методов машинного обучения. Из-за этого компромисса польза дифференциальной конфиденциальности подвергается критике, поскольку она часто приводит к значительному снижению производительности.
Идти вперед
Из-за противоречия между логическим выводом обучения и проблемами конфиденциальности в конечном итоге возникает социальный вопрос о том, что в каком контексте важнее.
Когда данные не содержат конфиденциальной информации, легко порекомендовать использовать самые мощные доступные методы машинного обучения.
Однако при работе с конфиденциальными данными важно взвесить последствия утечки конфиденциальной информации, и, возможно, придется пожертвовать некоторой производительностью машинного обучения, чтобы защитить конфиденциальность людей, чьи данные обучали модель.
Есть какие-нибудь мысли по этому поводу? Напишите нам в комментариях ниже или перенесите обсуждение в наш Twitter или Facebook.
Рекомендации редакции:
- ИИ решает сложную задачу — дать компьютерам обоняние
- Опора на выбор ИИ может ослабить наши навыки принятия решений
- Чат-боты с искусственным интеллектом отказываются выдавать «спорные» результаты
- Автономные автогонки способствуют повышению безопасности беспилотных автомобилей
Примечание редактора: эта статья была написана Джорданом Аваном , доцентом кафедры статистики Университета Пердью, и переиздана из журнала The Conversation под лицензией Creative Commons. Прочтите оригинал статьи.