实用隐私:如何增加数据隐私和发展机器学习

对于任何使用个人数据的公司来说,数据隐私都是一个巨大的话题,最近的立法活动包括新的联邦隐私法把它推到了风口浪尖。消费者的担忧也在增加。IBM报告称,78%的消费者认为,企业保护数据隐私的能力非常重要。

与此同时,机器学习改进了产品,为用户带来了好处,如改进的个性化、量身定制的体验和更少的手工填写表单的时间。但是机器学习需要数据来训练系统——没有数据,系统就不能工作。因此,企业表示他们面临着一个难题:如何在开发由机器学习驱动的产品的同时提高用户隐私?

作为组织的IT决策者,首席信息官们必须接受这样一个理念:隐私不仅仅是一个开关,在这个开关中,他们要么收集并使用所有数据,要么不使用所有数据。有一些新方法可以增加用户的隐私,同时仍然保持机器学习系统的准确性。以下是IT领导可以介绍的三种提高用户隐私的实用方法。

限制你收集的个人资料

增加用户隐私的最简单的方法之一是限制个人数据的收集量。我和我的团队创建了一个内部原型,它的原理是隐私应该是一个可滑动的刻度,而不仅仅是一个开关。

我们的想法是一个可调节的软件功能——一个隐私拨号——它可以让用户或他们的公司通过删除不同级别的个人身份信息来增加或减少收集的信息类型。开发人员可以为用户提供一个按钮,说明他们想要的隐私程度,并对每个选项的好处进行解释。通过了解数据共享的级别如何影响用户体验,用户有更多的知识和控制权。

Privacy Dial为增加用户隐私提供了一系列选项。

在较低的拨号设置下,可用于直接识别一个人的个人数据将被删除。随着设置的增加,被删除的数据不能用于直接识别单个人,但它仍然可以提供有关个人的附加信息。在大多数情况下,个人身份信息对模型的预测没有帮助,因此删除它并不影响最终模型的准确性。

联合学习是一个优秀的在这里,一个模型在用户的设备上被训练,然后被训练的模型被传递到中央存储器。这意味着原始数据不会离开用户的个人设备,但它仍然允许较高的准确性。

只使用数据的一个子集

在选择数据来训练机器学习模型的阶段,也可以增加用户的隐私。实现这一点的一种方法是使用k-匿名(k- anonymous)使用户与其他用户难以区分。

使一个人与另外5个人无法区分:k-匿名,k=6。

k匿名是通过聚合或删除可以间接重新识别一个人的数据(例如,业务支出的位置)来实现的,直到有一定数量的条目是相同的。“K”指的是数据集中相同的人的数量,所以如果K =3,那么数据集中的三个条目具有相同的敏感数据组合。然而,这种方法会导致机器学习模型的准确性大幅下降,并不能提供强有力的隐私保障。

防止模型预测中的数据泄露

机器学习模型可以露出罕见的例子从他们的训练数据中进行预测,可能造成用户的隐私损失。差别隐私可以防止这种情况。微分隐私是一个数学定义,它保证对于数据的任何转换,返回任何特定结果的概率几乎相同,无论一个个体是否在数据集中。因此,无论一个人的数据是否被包含在内,差异私有机器学习模型都能做出几乎相同的预测——它了解的是整个群体,而不是个人。

加载下一篇文章