"); //-->
很多公司都使用机器学习来分析人们的欲望、厌恶或面孔。研究人员提出了一个不同的问题:我们如何让机器忘记学习?
机器学习正在寻找如何在人工智能软件中诱发选择性失忆的方法。目标是从机器学习系统中删除特定人员或数据点的所有痕迹,而不影响其性能。
如果该功能可以实现,这个概念可以更好地让人们控制他们的数据和产生的价值。尽管用户已经可以要求一些公司删除个人数据,但他们并不清楚算法是如何调整这些信息。机器忘掉学习却有可能让一个人撤回他们的数据和公司获利的方法。
该方法对于那些想删除网上分享的内容来说很直观,但人工健忘症的概念需要计算机科学方面的一些新想法。
你认为这个想法可以实现吗?
这些公司花费数百万美元训练机器学习算法来识别面孔或对社交帖子进行排名,算法比手动编码人员可以更快地解决问题。但一旦经过训练,机器学习系统就不会轻易改变,甚至不会被理解。消除特定数据点影响的传统方法是从头开始重建系统,这是一项代价高昂的工作。
宾夕法尼亚大学机器学习的教授亚伦罗斯表示“这项研究旨在找到一些中间立场,当他们要求删除数据时,我们能否消除他们数据的所有影响,同时避免从头开始重新训练的全部成本?”
机器取消学习的工作部分是由于人们关注到人工智能可能侵犯隐私的方式。长期以来,世界各地的数据监管机构都有权强制公司删除不良信息。例如欧盟和加利福尼亚州的公民,如果他们对披露的内容改变了主意,他们有权要求公司删除他们的数据。最近,美国和欧洲的监管机构表示,人工智能系统有时必须更进一步:删除针对敏感数据进行训练的系统。
“当他们要求删除数据时,我们能否消除他们数据的所有影响,同时避免从头开始重新训练的全部成本?”
去年,英国数据监管机构警告,一些机器学习软件可能会受到 GDPR 权利的约束,例如数据删除,因为 AI 系统可能包含个人数据。安全研究人员已经表明,算法有时会被迫泄露其创建中使用的敏感数据。今年年初,美国联邦贸易委员会迫使面部识别公司 Paravision 删除了一系列以不当方式获取的面部照片和用它们训练的机器学习算法。FTC 专员 Rohit Chopra 称赞这种新的执法策略是一种迫使违反数据规则的公司“丧失其欺骗成果”的方式。
取消机器学习研究的小领域正在努力解决这些监管转变带来的一些实际和数学问题。研究人员已经表明,他们可以让机器学习算法在某些条件下忘记,但该技术尚未准备好。
“对于一个年轻的领域来说很常见,这个领域渴望做的事情与我们现在知道如何做的事情之间存在差距,”罗斯说。
多伦多大学和威斯康星大学麦迪逊分校的研究人员在 2019 年时,提出了一种很有前景的方法是将新机器学习项目的源数据分成多个部分。单独处理每个,然后将结果组合到最终的机器学习模型中。如果需要忘记一个数据点,则只需重新处理原始输入数据的一小部分。该方法被证明适用于在线购买数据和超过一百万张照片的集合。
Roth 和来自宾夕法尼亚大学、哈佛大学和斯坦福大学的合作者最近证明了这种方法的一个缺陷,表明如果提交的删除请求以特定的顺序出现,无论是偶然的还是来自恶意行为者,学习系统都会崩溃。并且他们还展示了如何缓解这个问题。
滑铁卢大学教授 Gautam Kamath 也致力于取消学习,他说该项目发现并解决的问题是,关于如何使机器取消学习不仅仅是实验室好奇心的许多悬而未决的问题的一个例子。他自己的研究小组一直在探索通过连续取消学习多个数据点来降低系统准确性的程度。
Kamath 还对寻找方法让公司证明——或监管机构来检查——系统真的忘记了它应该忘记的东西。“感觉好像还有一段路要走,但也许他们最终会为这类事情配备审计员,”他说。
随着 FTC 和其他机构仔细研究算法的力量,调查解除机器学习可能性的监管理由可能会增加。牛津大学研究数据保护的教授鲁本·宾斯 (Reuben Binns) 表示,近年来在美国和欧洲,个人应该对其数据的命运和成果有发言权的观念越来越多。
在科技公司真正实施机器学习之前,需要精湛的技术工作,让人们更好地控制其数据的算法命运。即便如此,该技术可能不会对人工智能时代的隐私风险产生太大影响。
差分隐私是一种巧妙的技术,可以对系统泄漏的个人信息进行数学限制,提供了有用的比较。苹果、谷歌和微软都对这项技术赞不绝口,但使用相对较少,隐私风险仍然很多。
Binns 说,虽然它确实很有用,但“在其他情况下,它更像是一家公司所做的事情,以表明它正在创新。”他怀疑机器取消学习可能会证明是相似的,与其说是数据保护的重大转变,不如说是对技术敏锐度的展示。即使机器学会忘记,用户也必须记住要小心与谁共享数据。
参考链接:
https://www.wired.com/story/machines-can-learn-can-they-unlearn/
本文由AI科技大本营翻译,转载请注明出处。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。