面部识别技术背后，有什么“肮脏的小秘密”？|数据集|算法|面部识别_新浪科技

　　雷锋网按，面部识别技术成为整个AI行业最为常见的技术应用之一；不过，在识别效率越来越高的同时，人们也开始担心面部识别技术发展过程中的隐私安全问题。比如说最近IBM利用Flickr下载的图片来进行面部识别训练，就引起了人们的质疑；NBC News针对此事进行了详细的报道，雷锋网对这篇报道进行了不改变原意的编译。

　　近些年来，面部识别技术得到了长足发展，除了帮你解锁iPhone，还能让执法机关在人山人海中“一眼”就认出犯罪分子，商店甚至用它来识别自己的“死忠”客户。不过，法律专家却警告称，大量未经允许滥用网络照片最终会画地为牢，反过来成为监控你的“帮凶”。

　　现在的面部识别技术还不完美，它工作时靠的是算法，目标则很简单——认出那张独一无二的脸。

　　想把这个任务完成好，技术人员就必须提前“喂给”算法“养料”，即天量的面部照片。那么这些照片从哪来呢？当然是互联网。

　　起初，算法学习的照片都会按照不同的标准进行分类，比如年龄、性别、肤色等，但经过一段时间的学习后，它的能力开始变得有些吓人了，于是法律和人权专家开始大声疾呼，他们担心技术人员对普通人照片的滥用会带来“反噬”效果。

　　“这是AI训练数据集背后的肮脏小秘密。技术人员可不管三七二十一，只要能用的照片他们都不放过。”纽约大学法学院教授JasonSchultz说道。

　　最近IBM公司也进了“暴风圈”，今年1月它们向研究人员分享了自己的数据集，包含了Flickr上近100万张照片，虽然IBM号称此举是为了减少面部识别的偏差。

　　了解真相后的摄影师们不愿意了，因为IBM在他们的作品上加了各种细节注释，包括面部几何结构、肤色等信息，而这些照片最终可能会成为面部识别算法的“养料”。

　　“我拍过的人可没想过，自己的照片居然会被用在面部识别算法训练上。”公关经理Greg Peverill-Conti气愤地说道，他有700多张照片被收录在了IBM的“训练数据集”中。“IBM太草率了吧，它们怎么能不经同意就使用这些照片”。

　　IBM公司AI研究主管John Smith则表示，公司“致力于保护个人隐私”，如果谁想从数据集中移除照片，尽管联系IBM。

　　虽然IBM信誓旦旦的保证Flickr用户可以随时移除数据集中的照片，但事情哪有那么简单，这本就是个有来无回的“不归路”。因为IBM需要拍摄者发送想要移除图片的链接（光靠Flickr账号不管用），而它们却从没分享过到底这个数据集用了谁的Flickr照片，所以你大概率会被蒙在鼓里。

　　对于这个数据集，IBM有自己冠冕堂皇的理由——它将用于学术工作，且担负着让面部识别变得更加公平的重任。当然，在网络照片滥用方面，IBM并不是独一家，数十家其他研究机构或公司也在采集网络照片训练自己的面部识别系统。

　　一些法律专家认为，这不仅仅是对数百万人肖像权和隐私权的侵犯，它还加重了人们对面部识别技术的担忧，也许有一天执法部门会让它“双手沾满鲜血”。

　　面部识别技术的进化历程

　　面部识别工具刚刚诞生时，研究人员会付钱请人来试验室“帮忙“，这些人拿钱办事，将自己不同姿态和光照角度下的照片留了下来以供研究之用。不过，这样的方案成本高还浪费时间，因此早期的数据集往往只有数百个样本。

　　进入新世纪后，互联网飞速发展，研究人员突然意识到，面部识别的好时光来了，因为网上有天量的照片可供使用。

　　“直接打开搜索引擎，输入名人的姓名，然后下载各种360度无死角的照片既可。”美国国家标准技术局数据集采集人员P.Jonathon Phillips说道。

　　随着社交网络的兴盛和自媒体的发展，普通人的照片也突然多了起来。研究人员默认这些照片是对所有人开放的，有时他们甚至会从YouTube的视频中抓取面部图片。

　　由于工作的非经营性质，学术人员用起照片来绝对是近水楼台，因为他们能绕过版权问题了，而Flickr的性质更是让它们成了研究人员绝对的安全之选。

　　为了保证数据集的多样性，IBM其实从Flickr上Down了超过1亿张照片，随后又精选了100万张有注释的面部照片。为了力求精确，它们甚至为这些照片定了200多种分类标准。

　　谷歌学术指出，这种研究方法在业内几乎已经是尽人皆知，因为有数百篇学术论文都在靠照片采集来佐证自己的论点，没人敢说自己是完全清白的，或者拿到了授权或同意。因此，面部识别准确性的提高和分析工具的进步主要就是靠这些“野路子”来的照片。

　　IBM真没拿面部数据集赚钱？

　　“要想让面部识别系统超常发挥，训练数据必须足够多样化，而且覆盖范围足够广。”IBM的John Smith说道。

　　在IBM看来，自己的数据集并未将图片中的人脸和具体的名字联系起来，这就意味着系统不会侵犯人们的隐私。不过，依然有人质疑IBM的动机，因为它们可是向政府出售过监控工具。

　　举例来说，911袭击发生后，IBM就将面部识别技术卖给了纽约警方，执法部门通过搜索监控录像就能识别出特殊的肤色或发色。IBM还曾推出过“智能视频分析”产品，它们能通过监控摄像头给人们加标签（亚裔、黑人或白人）。

　　如今，IBM则有了Waston视觉识别系统，通过图片算法就能识别出人的年龄和性别。配合正确的训练算法，客户就能从图片或视频中识别出特定的人。在被问到Waston用了什么训练数据时，IBM称数据有多个来源，不过却拒绝披露具体的数据来源，并美其名曰保护知识产权。

　　一再逼问下，IBM称从Flickr拿到的相片数据集仅用于研究，不会用来提升公司的商用面部识别工具。不过，有专家指出，类似IBM和Facebook这样的公司，其研发和商业运营部门之间的界限非常模糊，而且研发部门的知识产权均归IBM所有。因此，面部识别公司Kairos前CEO Brian Brackeen断言，即使学术部门研发的算法有其非商业化性质，这些算法最终还是会被拿来赚钱。

　　他还打了个形象的比喻，“你可以把它看做拿面部识别技术洗钱，公司将网上的照片洗成了自己的知识产权。”

　　“被选中”的摄影师们怎么想？

　　澳大利亚摄影师Georg Holzer将自己的作品上传Flickr是为了记录自己声明中的精彩瞬间，他也签署了创意认证，只要是非营利性项目，就能免费使用他的照片。不过，他没想到自己的照片会成为面部识别技术的“养料”。

　　“我了解技术能造成的伤害。”Holzer说道。“当然，面部识别技术也有其积极的一面，但如果用得不对，它也能剥夺人的基本权利和隐私。我是无法接受这项技术广泛应用的。”

　　“我觉得IBM可不是家慈善公司，最终它们还是会用这项技术牟利，所以面部识别技术还是会进入商业市场。”Holzer说道。

　　Dolan Halbrook也有452张照片被IBM的数据集“侵吞”，他也认为IBM在使用这些照片时应该征得自己的同意。

　　当然，也有摄影师觉得自己的照片能被IBM选中并用在推动面部识别发展上是一大幸事。

　　瑞士的GuillaumeBoppe就表示：“如果我的照片能帮助AI进化，降低探测错误率并最终提升全球安全指数，我举双手赞同。”

　　想从数据集中删图？没那么容易

　　如果你不同意IBM将自己的照片当成训练数据，也可以联系它们删除，但操作起来没那么容易。一位被抓取1000多张照片的摄影师忙活了半天，也只删除了4张照片，因为他无法找到所有照片的链接，而Flickr账号IBM可不认。

　　此外，即使从IBM的数据集中删除了照片，IBM研究伙伴拿到的数据集也无法一并删除（已经有250多家组织和机构接入了IBM的数据集）。

　　显然，IBM的数据集不是公共场所，没法想来就来想走就走。