大统计数据时代的隐私外泄如达摩克利斯之剑,悬在每个网友头上,而有关怎样为保护统计数据隐私我们也走了极短的路。
1977 年,逻辑学家 Tore Dalenius 给出有关统计数据隐私的严格表述:普通使用者不能从隐私统计数据
2006 年,计算机学者 Cynthia Dwork 证明上述表述的隐私为保护是不存在的。有一个简单例子可以帮助理解:假设普通使用者晓得 Alice 的身高比 Lithuanian 男性平均体格高 2 寸,这样普通使用者只须要从一个统计数据季中赢得 Lithuanian 男性体格平均数(在接触统计数据前普通使用者无人知晓),就能准确赢得 Alice 的准确体格,甚至 Alice 都不须要在这个统计数据季中。因此,对于一份有重要数据量的统计数据,不可能完全不暴露隐私重要信息。
2018 年,史上最苛刻的个人隐私为保护法令《通用统计数据为保护法规》( GDPR )正式施行,缔造了互联网诞生以来的最大革新,统计数据隐私问题得到空前的重视。
近日,学雷锋网了解到,第三本体论使徒( Sage )虚拟化 AI 网络平台已经完成 PrivacySeal EU 证书工作程序,率先透过欧盟 GDPR 证书,成为国内首款透过该证书的 AI 网络平台产品,现代科学如前所述第三本体论隐私体系结构的统计数据可靠性和可靠天真,那么,他们是怎样为保护使用者隐私安全的?为此,学雷锋网和第三本体论的主任科学家涂威威聊了聊。
非官方化或许是个伪命题?
不晓得有多少TX记得去年Google控股公司 Alphabet Inc 因违背隐私统计数据法被罚金 5000 万英镑的事情,据说这是迄今欧洲范围内,一家公司因违背隐私统计数据法遭受到的explained有期徒刑。多家英语科技媒体报道时,都用了 “record high”(创纪录地小)描述行政处罚力度之狠。
为什么Google会受到如此严重的惩处?
首先,Google会搜集他家相关应用领域和服务器端页面访问的活动统计数据,透过Android电子设备的“电子设备标记”以及“电视广告标记符”,将应用领域统计数据上载至Google伺服器,并与使用者的Google账户关联,形成了完整的卷曲。简单来说,Google透过消极方式搜集的所谓“非官方统计数据”与使用者的个人重要信息密切相关 ——绕了一大圈,最后德博瓦桑县用“合法手段”应用领域使用者信息。
同样地,Google Ad Manager 的 Cookie ID(跟踪使用者在服务器端页面上的活动缓存重要信息)是另一个据称是“使用者非官方”URL。如果使用者在同一浏览器中访问Google应用领域程序,Google 可以将其连接到使用者的 Google 帐户之前访问过服务器端页面。
Google 之所以出现这类问题,主要源于其产品在统计数据流转及应用领域上不严谨所致,同时,一些常规非官方化手段的技术缺陷同样不容忽视。
而Google的电视广告业务几乎覆盖了 90% 全球使用者,200 万个主流网站,也就是说不经意间我们的生活已经被Google的 “统计数据操控” 看了个清清楚楚明明白白。
2010 年,个人隐私律师 Paul Ohm 就曾在 UCLA 法律评论中刊文指出,虽然恶意普通使用者可以使用个人身份重要信息(如姓名或社会安全号码)将统计数据与个人身份进行关联,但事现代科学明,即便只拥有那些不会被归类为“个人身份重要信息”的重要信息,他们也可以达到同样的目的。
Ohm 参考了 Sweeney 早期的一些研究,她发现 1990 年美国人口普查中有 87% 的人可以透过两条重要信息进行唯一识别:他们的出生日期和他们住址的邮政编码。Ohm 还引用了 Netflix 以及其他有关统计数据外泄的案例,并得出结论:在传统的以个人身份重要信息为为保护重点的非官方化技术下,几乎任何统计数据都无法实现永久的完全非官方。
链接攻击、同质化攻击等方式都可能从非官方化统计数据中定位个人身份。例如链接攻击,透过统计数据的半URL在其他能找到的表上进行查询,则可能找到对应的身份定位URL以及其他敏感重要信息。
2013 年,研究人员发现位置统计数据具有高度的独特性,因此更加难以非官方化。许多非官方统计数据库都可能间接外泄你的位置,例如刷卡消费或前往医院就诊。研究人员发现,透过每小时记录4次手机连接到的信号发射塔,就可以对 95% 的电子设备进行唯一识别。如果统计数据更精细( GPS 跟踪而不是信号发射塔,或者实时采集而不是每小时采集),匹配则会变得更加容易。
于是,大家开始意识到“非官方化”这东西并没有那么安全,我们的重要信息还是会被窃取。
所以,一向注重使用者隐私的苹果在 2016 的开发者大会上提出了“脉冲响应隐私(Differential Privacy)”的概念。即透过演算法来打乱个体使用者统计数据,让任何人都不能凭此追踪到具体的使用者,但又可以允许机构成批分析统计数据以赢得大规模的整体趋势用于机器学习。将使用者隐私重要信息储存在本机而非云端也是苹果为保护使用者隐私的方法之一。例如 Face ID 面容重要信息、Touch ID 指纹重要信息等都存储在 iPhone 的芯片上。
不过,脉冲响应隐私还是无法避免多个相关统计数据上报而导致的隐私外泄。更何况,道高一尺魔高一丈,非官方方法推陈出新的同时,普通使用者们也会采用更为强力的识别工具。
那么,第三本体论推出的脉冲响应隐私又是怎样做的呢?
机器学习中的隐私为保护
据涂威威介绍,目前已有脉冲响应隐私机器学习演算法上的工作,往往是透过往训练过程内注入噪声来实现脉冲响应隐私。
常见的有三种:目标函数扰动(objective perturbation)、输出扰动(output perturbation)、梯度扰动(gradient perturbation)。常见的机器学习演算法,以最简单的 logistic regression 演算法为例,已经有成熟的脉冲响应隐私演算法,以及隐私为保护和学习效果上的理论保障。然而就目前的方法以及对应的理论来看,对于隐私为保护的要求越高,须要注入的噪声强度越大,从而对演算法效果造成严重负面影响。
为了改善上述问题,第三本体论如前所述以往 Stacking 集成学习方法的成效,将 Stacking 方法与脉冲响应隐私机器学习演算法相结合。Stacking 须要将统计数据按照样品分成数份。并且提出了如前所述样品和如前所述特征重新组合的两种 Stacking 带隐私为保护的机器学习演算法。
在该演算法中,统计数据按样品被分成两份,其中一份按特征或按样品分割后在脉冲响应隐私的约束下训练 K 个子模型,并在第二份上透过脉冲响应隐私机器学习演算法进行融合。
按特征重新组合相比过去的演算法和按样品重新组合演算法有更低的泛化误差。同时,按特征重新组合有另一个优势,如果晓得特征重要性,第三本体论的脉冲响应隐私演算法可以将其编入演算法中,从而使得重要的特征被扰动的更少,在保持整体的隐私为保护不变的情况下,可以得到更好的效果。
此外,还可以直接拓展到迁移学习上。即在源统计数据集上按照特征重新组合后得到带隐私为保护的模型,透过模型迁移,迁移到目标统计数据集上并透过 Stacking 进行融合。在这种情况下,源统计数据可以在不暴露隐私的情况下输出模型帮助目标统计数据提升学习效果,而目标统计数据也可以在为保护自身统计数据隐私的约束下训练模型。
不过,值得注意的是,以脉冲响应隐私为代表的隐私为保护技术仍须要在理论、效果、应用领域、成本等方面进一步解决和优化。
涂威威介绍说:“比如,在成本方面,核心的问题其实是人力。机器学习已经是很复杂的技术,落地须要很专业的人才。当前的隐私为保护技术使用门槛较高,在为保护隐私的前提下,多方联合统计数据建模的常见做法依然须要比较多的专家人工介入到统计数据预处理、特征工程、模型调参当中,因此落地的人才门槛更高。且人力的介入又会给统计数据安全与隐私为保护带来一层隐患。”
因此,在脉冲响应隐私的基础上,又衍生出了另一种为保护隐私的自动多方机器学习技术。第三本体论综合了脉冲响应隐私技术、自动化机器学习技术,让机器自动完成统计数据预处理、特征工程、模型调参等工作,大幅减少了专家人工的介入,一方面进一步提升了可靠性,另一方面也大幅降低了隐私为保护技术的使用门槛,使得广泛落地成为可能。该技术也将是保证技术规模化落地的关键。
最后,学雷锋网想提醒大家,虽然在隐私和便利面前,我们都抓秃了头,但不代表这就没法解决了。
电影《绝对控制》中有一句话:“隐私不是公民权,而是特权”;隐私本应是每个公民最基础的权利,只不过在过去的极短时间中,我们从未意识到行使这项权利,以至于隐私竟变成了“特权”,不过庆幸的是隐私权正在回归,人们正在拾回分散在互联网中的隐私。