我在新加坡寻找“红灯区”，AI 老司机翻了个白眼|红灯区|样本|唐马儒_新浪科技

这是一个真实的故事。前几天，我和一群小伙伴在新加坡参加了一场神秘的黑客大会，具体是什么大会，以后再说。我先说说你们感兴趣的“寻找红灯区事件”。

我们本来纯洁地打算寻找吃榴莲的圣地，不料女导游神秘兮兮地介绍，新加坡有个地区叫芽笼，是个开展合法羞羞服务的区域，就在你们吃榴莲的地方附近哦。

蛤？贵坡还有这么不符合我们社会主义核心价值观的地方？

车上的小伙伴顿时来了兴致，强烈要求司机载着我们在芽笼区域晃荡一圈。而且，一位男同学提出了一个相当正经的问题：听说提供这些服务的场所就隐藏在大街小巷里，我们怎么区别什么样的场所是红灯区？迷路怎么办？

女导游羞涩地朝着一个方向指过去：你们看，新加坡的这些街巷分成了单双号，在这个区域，单号街道都是正经吃喝的地方，一般红灯区隐藏在双号街道里哦。

【图片来源：新加坡眼所有者：新加坡眼】

为了再一次教我们辨别什么是提供特殊服务的小店，导游指出，一般在这些场所外面，会挂上两个红灯笼，这些灯笼会在夜晚点亮。

可是，这辆大巴转了许久，我们还是没有看到红灯笼，不禁失望至极，导游安慰我们：对了，有些场所不挂灯笼，但有 bling bling 的霓虹灯，你们如果在这个区域的双号街巷看到闪烁的五颜六色，那就八九不离十了！

我之所以想起寻找红灯区事件，是因为1月16日，我参加了阿里安全部的一次年度媒体沟通会，AI 鉴黄被作为一个典型的安全 AI 应用案例推出。我才发现，相较于肉身寻找红灯区，AI 早就在鉴定黄赌毒上一路狂奔了。

但是，厉害如 AI 唐马儒，竟然也面临着安全风险。

本文作者：雷锋网网络安全专栏作者，李勤，微信：qinqin0511

攻击者 VS AI老司机

我们来看看，发生了什么。

阿里目前有三大战略领域：传统电商、数字化娱乐和新零售，这三个领域都涉及到网络安全，比如，原创内容保护、内容治理和网络黑灰产对抗。

以内容治理为例，由于淘宝体量巨大以及内容生态越来越繁荣，淘宝的短视频每天的观看量差不多能达到 20 亿次，这就衍生了一个问题：如何让内容合法合规？

阿里安全部图灵实验室高级算法专家威视（花名）告诉我，在过去一年网信办接到的各种违规信息举报中，超过 70% 的举报涉及色情低俗，这意味着，色情低俗风险确实是各种内容面临的合规风险中占比最大的一种，所以，在巨大的信息中，运用 AI 寻找黄色内容，规避内容风险成了一个强需求。

现在出现了一类不正经的算法工程师，他们被称为“调包侠”，虽然他们可能并不理解 AI 技术底层如何实现，但特别擅长调包——调用别人的开源代码，将一些非法信息灌进去，训练出一个特殊模型。这导致了另一个问题——安全研究员辛辛苦苦训练出的 AI 唐马儒竟然可能叛变，就像被人塞了小红包，对黄色内容睁一眼闭一眼。

【图片来源：pconline 所有者：pconline 】

更让人担忧的是，还有更多安全对抗在发生。

第一回合：没用上 AI 技术，违规信息对抗在不同媒体间转移。

以商品信息为例，一开始，色情低俗信息，直接写在商品标题里面，比如：“看爽片XXX”，立马能找到不可描述的东东。

安全技术专家像打地鼠一样，敲掉了标题里的色情低俗。现在一搜“看爽片”“爽片”，出来的分别是这样的商品：

【雷锋网(公众号：雷锋网)注：仅为搜索结果示例】

攻击者马上把违规信息转移到了商品的主图、副图中。由于色情图片具有较强的视觉可分性，图片的鉴黄比较容易开展，攻击者发现自己被拦住之后，开始做拼接图，把违规信息拼在一个正常背景中，或者通过翻拍逃避检测。

甚至，当他们发现，算法对彩色图片的识别效果好，攻击者就用黑白图片，后来，整张图片容易被识别，就变成局部暴露，比如，衣服裹得严严实实的，只漏出关键的一点点。

或者，用美图工具把常规照片转换成铅笔画、蜡笔风格，甚至素描，当安全技术专家把这些问题解决了，攻击者又想了一个新办法——在图片里写字，开始时，违规文字是正常的印刷体，被识别后，坏人开始用斜体、花体字；又被识别出来后，攻击者干脆用手写，还故意写得很潦草，不断考验识别算法和人类的想象力。

当图片的鉴黄做得差不多时，违规信息转战到了视频、直播里，用音频来做。当违规音频也被干掉时，攻击者更狡猾了，他们把信息拆解开，在图片、文本、语音中分散放置，变成一个典型的多模态问题，这时需要综合各方信息进行判断。

第二回合：高端对抗，坏人掌握了AI 技术。

这种攻击者不仅是调包侠，还懂得了AI技术底层的一些特点。他能进行什么骚操作？

曾有一篇经典论文指出，本来模型识别一张图片，正常的输出结果是一只大熊猫，但是坏人经过一些简单运算，比如像素级别的操作，得到一张新图片，人眼看上去还是一只大熊猫，但是欺骗了识别模型，被模型判断为一只长臂猿。

坏人是如何做到的？

第一种情况，攻击者知道鉴黄的算法、模型和网络结构。

威视将这种情况称为“白盒攻击”，这种攻击并不复杂和困难，只要花的时间足够长，耐心尝试密码，攻击者总可以打开盒子。

第二种情况，算法使用的模型是不公开的。

在这种黑盒攻击下，攻击者不断用不同图片调用公开的算法接口，分析返回的结果，不断尝试验证哪些方法可以让AI唐马儒输出的结果含糊不清，直到尝试出来某一种修改能够攻破威视等人建立的模型。

威视说，黑盒攻击比白盒攻击成本高很多，这就是闭源模型好处。事实上，没有什么模型是不可被攻破的，只是攻击成本的高低。安全技术专家要做的，就是不断提高攻击门槛。

除了面对攻击者的威胁，AI 鉴定内容风险时还面临天然阻碍：

一是大海捞针，违规信息可能占比不到千分之一，违规样本和正常样本数量呈现出极度的不均衡的态势。

一是新增风险，安全场景面临的新风险往往“临时爆发”，谁能想到，直播主进行吃播时也可能涉黄。。。emmm，比如吃香蕉、喝酸奶等。

新风险下的新方法

对AI 唐马儒而言，深度学习算法强依赖高质量的样本，样本的质量越高，数量越多，鉴定效果就越好。

威视介绍，为此，他们提出了“小样本学习（few-shot learning）”这样的技术。这个方法主要解决两个问题：第一，训练中出现从来没有见过的新类别，每个类别又只有很少的样本；第二，训练新样本后，不能遗忘以前的知识，不能改变已有的模型。

针对上述问题，很多人想到用finetune（微调）的方式解决，也就是在已有模型基础上，用新类别的样本做微调训练。但是，已有的模型依赖很大的样本量训练，比如，需要1000万个训练样本。这时用几十个、一百个样本训练新类别，基本改变不了网络。而且，这种训练还会遗忘以前的知识。

威视告诉我：“发现这条走不通后，我们考察了很多新方法，比如，度量学习（metric learning），学习类和类之间的度量，把不同的类间的距离尽可能地拉大，缩小同类之间的距离，用模式识别的话，就是增大了类间的方差，减少了类内的方差。”

基于度量学习的思路，他们尝试了很多方法，比如，孪生网络（Siamese Neural Networks）、匹配网络（matching networks）、原型网络（Prototypical Networks）等。

这些方法的核心思想是，把样本看作一个点，再来度量不同样本在空间中的分布，利用算法合适地调整分布，让新的类别在原来的样本空间里找到合适的位置，区别原有的类别。

后来，他们还发现了基于图网络（graph neural network）的方法，这种放在在度量学习的基础上展开，图网络把样本不仅看成一个点，它认为，样本和样本之间是有关系的，用点和点之间的边来表达，有点有边就构成一张图。度量学习只学习了点的信息，图网络既学习了点的信息，也学习了边的信息，这样就构成了网络的学习，实际效果优于度量学习。

还有一种“元学习meta learning”方法，利用以往的知识经验指导新任务的学习。AI算法不是从0开始构建自己的知识体系，而是在已有的知识体系之上，快速学习新技能。

威视等人设计了一种新方法，元学习中融合了度量学习的方法，用构成每个类的标签样本的的原型来表征类，进而通过相似度分类（KNN Classification）进行识别。他们在多个数据集上做了验证，结果表明，该方法比基线有不错的提升。

这种新方法被应用在阿里云内容安全的产品中，阿里安全部提供了一个已有模型及训练方法，第一线的运营人员发现可定义的新风险时，他们用几十个或者上百个样本，在页面上点鼠标，上传并标注样本，这个模型就可以进行一次学习。学习之后，模型对没有学习过样本提出结论，这时运营人员需要标注算法的结果，判断哪个做对了，哪个做错了。大概重复两到三轮，模型基本可用了。

这种方法可以让AI应对大部分新增的风险，而且降低了对样本的依赖性，缩短了响应的时间。以前，安全人员需要收集信息，打标，训练模型进行测试，周期比较长的。现在，这些事情都交给了第一线的业务人员，他们可以自主进行几轮迭代和部署，模型可能在几个小时内就能上线，防范新增的风险。

安全 AI 的想象

AI 唐马儒要想比真的唐马儒更厉害，还需要发挥一些想象力。

在阿里安全图灵实验室的实践中，安全人员发现，AI 模型擅长在一些“老司机心知肚明的情况下”处理视觉可分性的任务，比如出现某种明显标志，或者出现了某种动作和场景，但在业务的审核标准里，很多时候连人都需要“脑补”，AI 就面临更艰巨的任务了，比如，在色情低俗的场景下，照片里并没有呈现完整的违规场景，AI表示无能为力，但人却可以想象画面之外发生了什么。