年复一年,人工智能不断发展并变得更有效地解决日常人类任务。但与此同时,它增加了个人信息滥用的可能性,在分析和传播个人数据方面达到了前所未有的能力和速度。在本文中,我想仔细研究人工智能系统和机器学习之间的紧密联系以及它们对日益私密和敏感数据的使用。
我们将共同探讨现有的隐私风险,讨论机器学习中保护隐私的传统方法,并分析克服安全漏洞的方法。
人工智能中隐私的重要性
如今,人工智能广泛应用于包括营销在内的许多领域,这已不是什么秘密。 NLP(自然语言处理)解释人类语言,用于语音助手和聊天机器人,理解口音和情绪;它将社交媒体内容与参与联系起来。机器学习采用算法来分析数据、提高性能并使人工智能能够在无需人工干预的情况下做出决策。 深度学习依赖于神经网络并使用广泛的数据集来做出明智的选择。
这些人工智能类型经常协作,给数据隐私带来挑战。人工智能会有意地收集数据(用户提供信息),或者无意地收集数据,例如通过面部识别。当无意的数据收集导致意外的使用、损害隐私时,问题就会出现。例如,通过手机讨论宠物食品或更亲密的购买行为可能会导致出现有针对性的广告,从而揭示无意的数据收集。人工智能算法虽然很智能,但可能会无意中捕获信息并使其受到未经授权的使用。因此,用于家庭识别的带有面部识别功能的视频门铃可能会无意中收集无关个人的数据,导致邻居担心监控和数据访问。
考虑到上述情况,建立有关使用新人工智能技术的道德决策框架至关重要。解决隐私挑战并思考技术伦理对于人工智能的持久成功至关重要。主要原因之一是在技术创新和隐私问题之间找到平衡将促进对社会负责的人工智能的发展,有助于公共价值和私人安全的长期创造。
传统方法的风险
在我们继续使用有效的隐私保护技术之前,让我们先看一下传统方法及其可能面临的问题。传统的隐私和机器学习方法主要围绕两个概念:用户控制和数据保护。用户想知道谁收集了他们的数据、出于什么目的以及这些数据将被存储多长时间。数据保护涉及匿名和加密数据,但即使在这里,差距也是不可避免的,特别是在机器学习中,解密往往是必要的。
另一个问题是机器学习涉及多个利益相关者,从而创建了一个复杂的信任网络。在不同实体之间共享数字资产(例如训练数据、推理数据和机器学习模型)时,信任至关重要。试想一下,有一个实体拥有训练数据,而另一组实体可能拥有推理数据。第三个实体提供在推理上运行的机器学习服务器,由其他人拥有的模型执行。此外,它的基础设施来自涉及多方的广泛供应链。因此,所有实体必须在复杂的链条中表现出彼此的信任。管理这个信任网络变得越来越困难。
安全漏洞示例
随着我们更多地依赖使用机器学习的通信技术,数据泄露和未经授权的访问有所增加。黑客可能会尝试利用这些系统中的漏洞来获取个人数据,例如姓名、地址和财务信息,这可能会导致资金损失和身份盗用。
关于恶意使用 AI 的报告概述了以下三个领域:安全关注:现有威胁的扩展、新的攻击方式、威胁典型特征的变化。恶意人工智能使用的例子包括使用 Deepfake 技术的 BEC 攻击,这有助于社会工程策略。 IBM DeepLocker 演示的人工智能辅助网络攻击展示了人工智能如何通过根据趋势和模式做出决策来增强勒索软件攻击。值得注意的是,TaskRabbit 经历了一次人工智能辅助的网络攻击,其中人工智能僵尸网络执行了 DDoS 攻击,导致数据泄露,影响了 375 万客户。
此外,网上购物的增加加剧了无卡欺诈 (CNP) 欺诈,同时合成身份和身份盗窃问题也日益增多。预计到 2024 年,其损失可能达到 2000 亿美元,交易量将增长超过 23%。
隐私保护机器学习
这就是保护隐私的机器学习带来解决方案的时候。最有效的技术包括联邦学习、同态加密和差分隐私。联邦学习允许单独的实体共同训练模型,而无需共享显式数据。反过来,同态加密可以在整个过程中对加密数据进行机器学习,而差分隐私则可以确保计算输出不会与个人数据的存在相关联。这些技术与可信执行环境相结合,可以有效解决隐私和机器学习交叉领域的挑战。
联邦学习的隐私优势
如您所见,与隐私保护机器学习技术(尤其是联邦学习)相比,经典机器学习模型缺乏安全实施人工智能系统和物联网实践的效率。作为机器学习的去中心化版本,FL 有助于使 AI 安全保护技术更加可靠。在传统方法中,敏感的用户数据被发送到集中式服务器进行训练,带来了许多隐私问题,而联邦学习通过允许模型在设备上本地训练来解决这个问题,确保用户数据的安全。
增强数据隐私和安全性
<块引用>
联邦学习具有协作性质,将边缘的每个物联网设备视为唯一的客户端,无需传输原始数据即可训练模型。这确保了在联合学习过程中,每个物联网设备仅收集其任务所需的信息。通过将原始数据保留在设备上并仅将模型更新发送到中央服务器,联邦学习可以保护隐私信息,最大限度地降低个人数据泄露的风险,并确保安全操作。
块引用>
提高数据准确性和多样性
另一个重要问题是用于训练模型的集中数据可能无法准确代表模型将遇到的全部数据。相比之下,基于去中心化数据的训练模型从各种来源获取数据并向其提供更广泛的信息,可以增强模型概括新数据、处理变化和减少偏差的能力。
更高的适应性
联邦学习模型展示的另一个优势是无需重新训练即可适应新情况的显着能力,这提供了额外的安全性和可靠性。利用以前经验的见解,这些模型可以做出预测并将在一个领域获得的知识应用于另一个领域。例如,如果模型在预测特定领域的结果方面变得更加熟练,它就可以将这些知识无缝地应用到另一个领域,从而提高效率、降低成本并加快流程。
加密技术
为了增强 FL 的隐私性,通常会使用更有效的加密技术。其中包括同态加密和安全多方计算。这些方法确保数据在通信和模型聚合期间保持加密和安全。
同态加密允许在不解密的情况下对加密数据进行计算。
例如,如果用户想要将数据上传到基于云的服务器,他们可以对其进行加密,将其转换为密文,然后才上传。然后服务器将处理该数据而不解密它,然后用户将其取回。之后,用户将使用他们的密钥对其进行解密。
多方计算 (MPC) 使多方(每方都有其私有数据)能够评估计算,而不会泄露每一方持有的任何私有数据。
多方计算协议确保隐私和准确性。无法从协议的执行中推断出各方持有的私人信息。
如果组内任何一方决定共享信息或在协议执行过程中偏离指令,MPC将不允许其强迫其他方输出不正确的结果或泄露任何私人信息。
最终考虑因素
我想强调的是在机器学习中采用先进安全方法的重要性和紧迫性,而不是得出结论。为了在人工智能安全和保障方面取得有效和长期的成果,人工智能开发社区和法律和政策机构之间应该协调努力。在制定规范、道德、标准和法律方面建立信任并建立主动合作渠道对于避免技术和政策部门的被动和可能无效的反应至关重要。
我还想引用上述报告的作者的话,他们提出了以下建议来应对人工智能的安全挑战:
- 政策制定者应与技术研究人员密切合作,探索、预防和减轻人工智能的潜在恶意应用。
- 人工智能研究人员和工程师应认识到其工作的双重用途性质,考虑滥用的可能性,并允许此类考虑因素影响研究重点和规范。当可预见有害应用时,他们还应该主动与相关利益相关者接触。
- 确定计算机安全等成熟研究领域的最佳实践,并将其应用于解决人工智能的双重用途问题。
- 积极努力扩大利益相关者和领域专家参与应对这些挑战的讨论。
希望本文能够鼓励您自行研究该主题,为更安全的数字世界做出贡献。