行与列

人们通常用体积来谈论大数据–大数据的 “四对” 是体积、变化、速度和真实性–但我们在这里所关心的可能被称为 “面积”。我们会想到我们的数据在一个大桌子上。如果对个人有重复的度量, 请将其视为非规范化数据库表中的更多列。

从什么意义上说, 数据大: 是宽的还是长的?也就是说, 如果我们将数据视为一个表, 其中包含个人的行和关于个人的不同信息字段的列, 那么是否有大量的行或列?

在其他条件相同的情况下, 你的隐私会随着列的上升而下降。别人掌握的关于你的信息越多, 其中一些信息就越有可能被组合使用来识别你的身份。

隐私随行数的变化而变化的情况更为复杂。您的隐私可能会随着行数的增加而上升或下降。

数据集中的个人越多, 数据集中像您这样的个人的可能性就越大。从 k-匿名的角度来看, 这使得识别你的能力变得更加困难, 但更容易透露你的信息。

团体隐私

例如, 假设有50个人具有与您相同的准标识符。假设你是一个40多岁的美国原住民, 还有49个像你一样的人。那么, 知道你的人口统计数据的人就不能确定哪个记录是你的;他们就有2% 的机会猜对了其他人口结构相似的人的存在使你更难识别。另一方面, 他们的出现更有可能让人发现你们都有的共同点。如果数据显示中年美国土著男性极易患上某种疾病, 那么这些数据意味着很可能容易患上这种疾病。

由于旨在保护个人的隐私措施不一定保护群体, 一些少数群体一直不愿意参与科学研究。2008年《基因信息不歧视法》 (gina) 规定某些形式的基因歧视是非法的, 但可以理解的是, 少数群体可能仍然不愿意参加研究。

提高隐私与大小

随着数据集的增大, 您的隐私可能会得到改善。如果有大量的行, 数据绘制器可以在不影响数据值的情况下提供大量的随机化。数据中的噪声不会影响数据的统计结论, 但将保护个人隐私。

通过差异化隐私, 数据由受信任的策展人保存。噪声不是添加到数据本身, 而是添加到数据查询的结果中。噪声是根据查询的灵敏度添加的。查询的灵敏度通常会随着数据库的大小而降低, 因此大型数据集的不同私有查询可能只需要添加可忽略不计的噪声即可维护隐私。

如果数据集非常大, 则可以在数据本身使用随机响应或局部差分隐私进入数据库之前对其进行随机化。有了这些方法, 就不需要可信的数据策展人。这对于一个小数据集是不可能的, 因为相对于数据的大小而言, 噪声太大。

Comments are closed.