设为书签 Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。 您也可下载桌面快捷方式。点击下载 | 新浪科技 | 新浪首页 | 新浪导航

隐私泄露下的数据暗网,分类标签中的爱恨一生

2019-07-09 08:32:55    创事记 微博 作者: 半佛仙人   

  欢迎关注“创事记”微信订阅号:sinachuangshiji

  文/半佛仙人

  来源:半佛仙人(ID:banfoSB)

  1

  自打人类进化中出现了商业的那一刻起,营销,就成为了人类钻研的核心。

  交易的本质是价值交换,但世界上不存在永远对等的价值,所以交换中存在套利空间,这些套利空间,成就了商业的价值。

  逐利是人的本性,这是刻在基因里的。

  如何把一件产品附加上额外的价值,卖给自己的同类,换回更多的金钱,成了最打动人心的事情,比世界和平还要打动人。

  毕竟和平是所有人的,而金钱是少数人的。

  越少越珍贵。

  纵观人类历史的每一个时代,最先进的技术往往都是最先应用于军事和贸易,而军事,很多时候也都是为贸易所服务的。

  从古至今皆是如此,大数据年代也不例外。

  在这个人人标签化的数字年代,广告业前所未有的深入到了我们生活的方方面面,影响了我们的各种决策。

  你以为你做出的购买决策是基于自身的意愿,但现实并不一定如此。

  作为一个整日与数据标签打交道的风控,反商业作弊也是我的日常工作,如果不懂商业广告的底层逻辑,那么是做不好风控的。

  这篇文章将给大家科普大数据广告的精准推送原理,我想为大家展示一下数据在合理的策略里可以完成多么恐怖的事情,这是真正的改变世界,或者说是掌控世界。

  这里面有谣言,也有真相,更多的是真相与谣言参半。

  甚至有时候真相比谣言更加魔幻。

  2

  让人掏钱,不是一件简单的事情,哪怕是有技术的支持。

  数据广告推送,本身是一个极为复杂的工程,这里面涉及数据采集,数据清洗,口径对齐,数据关联,模型训练,策略迭代,场景验证,流量分配,成本控制,渠道管理等一系列工作。

  每家合格的数据驱动的营销公司,都会有一只数百到上千人的团队专门做相关的工作,数百个聪明的脑袋996只为做一件事。

  让你在不知不觉中心甘情愿的掏钱。

  靠一篇文章写全这些,既不太现实,也没必要,所以我决定围绕一个关于大数据广告非常经典的谣言,从辟谣开始,来一步步拆解数据广告推送的基础知识以及对我们生活的影响。

  很多人在网上说自己的的手机被人监听了,原因是自己刚和别人讨论了某个话题,没过多久,手机上就出现了类似信息的广告。

  例如自己口述了想喝奶茶,打开外卖软件就出现了奶茶推送。

  自己说想去欧洲旅游,打开网页就出现了旅游广告。

  自己谈到了某种商品,打开购物App就出现了类似商品的推送。

  所以很多人觉得自己在被自己手上的App所监听,然后这些监听依据相关的关键词拆解讲话的意思,然后就推送给自己各种各样的广告,精准不精准不说,着实是吓人一跳。

  有段时间,整个互联网都在盛传某某App拿录音权限就是为了实时监控用户,甚至某些App还在偷偷录像用户云云。

  我得承认大家的想象力是很丰富的,在不懂网络广告推送机制的前提下,提出这些猜想某种程度上也是合理的,但这都是谣言。

  互联网公司不会用这种方式来做所谓的精准推送。

  不是他们良心发现,而是这么做没有性价比。

  商人逐利。

  3

  为什么不用录音做推送?

  从用户角度思考方案,可能只考虑这件事是否能实现,监听录音从技术上可以实现;

  但是作为商业公司评估方案,除了需要考虑能不能实现这一点之外,还要综合考虑成本,效率以及风险,马虎不得。

  商场如战场。

  利用录音做信息收集,然后做广告推送,在当下,是一件成本极高,效率极低,风险极高的事情。

  不仅要投入大量成本,连毛都赚不回来,还要面临侵犯用户隐私的指控,脑子没冒烟的公司都不会做这件事,即使是冒烟的公司,做到一半就会发现划不来,然后不做了。

  录音牵涉的主要问题如下:

  1. 录音功能会让App消耗海量手机资源。

  当一个App在后台持续录音的时候,不仅是App本身运转会变得迟缓,更多的是会造成手机本身的耗电量和发热大幅增加,一来二去,用户直接就不使用了,因为一用你的App手机就不好,市场上可选择替代品又太多。

  当年滴滴和快的大战的时候,滴滴在关键时刻胜出靠的就是腾讯支持的1000台服务器以及数百名顶尖工程师,比快的早半个月实现了用户体验的质的飞跃,后面的故事大家都知道了。

  2.录音文件本身是占用手机存储空间的,并且占用极大。

  大家可以自己录一段30分钟的录音看看,这个音频文件会有多大,一个App如果持续录音,在用户重度使用的情况下,可能几天就把手机彻底塞满了。

  这会造成非常荒谬的后果。

  3.录音录下来之后,无法及时处理这些录音数据。

  如果把录音处理模型放在本地App里,那么一个是App安装包臃肿,一个是会被竞争对手反编译,商业机密直接透明,把核心能力包在App本地,是很愚蠢的事情,吃鸡为什么外挂屡禁不止,就是因为运算整体在本地文件,无法抵挡本地篡改,所以本地存储方案不靠谱;

  如果走实时上传,那么传输过程中需要流量,这造成用户的流量损耗极为恐怖,并且很容易就被识别出来上传用户信息;

  这些数据属于无用数据。

  4.录音分析来的数据价值低,且不准确。

  如果手机App监听录音,那么首先得保障他监听到的是你本人讲的话,因为推荐是要对你本人进行操作的,但是在现实生活中,录音没法保证只录某个人的声音,要录就是一起录音,这就导致录下来的声音也不知道是谁的。

  想想看,我在你身边走过,冲着隔壁的人大喊一声“杜蕾斯”。

  然后你打开手机给你推荐杜蕾斯,这种沙雕推荐是不是非常魔幻?

  这就是无差别录音带来的问题。

  5.语义分析在目前依然面临无法解决的语言本身的问题。

  人类的语言是一门艺术,汉语更是高阶艺术,而机器尚未破解这一艺术。

  如果大家试过录音转文字,或者语音输入法,就会发现,机器没有办法完整的识别有效的语言场景。

  我们来做一个语义识别题:

  领导:“你这是什么意思?” 小明:“没什么意思,意思意思。” 领导:“你这就不够意思了。” 小明:“小意思,小意思。” 领导:“你这人真有意思。” 小明:“其实也没有别的意思。” 领导:“那我就不好意思了。” 小明:“是我不好意思。”

  这里面的每一个意思,都是什么意思?

  机器根本做不到识别这些内容。

  甚至很多时候你只要讲方言或者讲话一快,机器就根本不知道你在说什么了。

  精准推送的前提是数据可靠且精准,录音绝不在这种数据中。

  6.录音带来的风险,要远远超过收益。

  录音这件事情,本身是非常敏感的,要是哪个App能被明确抓出来在偷偷录音(目前所有的质疑都只是质疑,没有明确的数据和代码证据),第一个搞他们的不是网民,而是工信部。

  这种侵犯隐私的行为,正是抓紧去教育的好时机。

  而公司只为求财,不想求进监狱里。

  看到这里,我想很多人对于录音这种谣言已经足够了解了,但是还是有疑惑自己身上发生的神奇的事情,没关系,我们继续讲下去,看看真正的数据推送是怎么做的。

  我们如何通过巧妙的技术把我们自己困在广告里。

  4

  数据推送是如何实现的?

  一套最最基础解法是,X+N=Y,这是最简单的公式。

  X是指的用户特征变量(用户画像),N是指变量应用(算法,策略),Y是指推送效果(用户是否购买)。

  所有收集来的用户数据,经过标准化ETL(数据处理),再经过特征工程,形成有效的X。

  有了X之后,N就是如何使用X,让最终结果更接近于Y。

  这里可以利用算法,也可以使用策略包,目前的主流是使用策略包,因为算法的效果随机性比较大。

  所谓的精准推送,本质上其实就是一个用X和N寻找接近Y的过程,所谓的训练模型,只不过是在已知X和Y的情况下,找寻可以让X更接近Y的算法,找出更好用的N。

  单纯这么说比较抽象,我举一个例子大家就明白了。

  半佛是一个18岁的美少年,曾经在淘宝上买了很多XX品牌的跑鞋,并且经常搜索大体重跑鞋。

  从广告推送的角度,针对美少年半佛的推送会这么做。

  首先拆解半佛身上的标签,做成X。

  男性,18岁,XX省人,学历XX,跑鞋,大体重,常用购物平台,手机型号,App来源,手机入网时长,话费消费记录等等,这些标签都是X,来自于各种各样的数据源。

  然后通过过去的购买记录,找到半佛曾经购买过的商品,就是各类跑鞋,做成Y。

  一个简单的用户画像就出来了:年轻男性,热爱跑步,胖,乐意花钱,有品牌倾向性,喜欢在淘宝购物,多数购物来自于主动搜索。

  那么这时候就可以通过一定的策略,给半佛推荐大量的符合他历史购买习惯的跑鞋(从品牌到型号到价格),如果成交了,就代表算法有效,进一步强化推送;

  如果没有成交,就弱化部分特征,推送新一批跑鞋,只要成交,就依据成交结果修正算法。

  最终半佛只是无聊刷淘宝,但是最终买了1000双跑鞋回家,然后又挂到了闲鱼上,创造了好几次GMV。

  当然实际应用中会比这个公式要复杂很多,各种变量间的衍生变量,不同用户间的关系网络变量,同一个用户在不同场景中要匹配不同的Y,X作为Y,Y作为X,用户消费心理勾画,产品要素设计等等等等,广告推送可以说是互联网最复杂的应用,可能都没有之一。

  因为人的购买欲是不稳定的。

  上面举的例子仅仅是复杂度为1的情况,实际在应用中,数据和公式的复杂度基本是10086起。

  考虑到本文是科普性质,所以我只拿最基本的东西来讲,大家了解这个数据推送的逻辑就可以了,算法本身不是重点。

  真正的重点在于精准数据的获取,这才是对我们生活影响最大的。

  数据时代的我们,一切都可以量化。

  5

  很多人所谓的自己偶尔说了什么,然后就收到了相关的广告,所以怀疑自己被录音。

  我理解这种想法,但我要说实现这样的效果,根本不需要录音这么麻烦,有的是更精准的方法来获取你的X。

  1.最基础的就是你的主动搜索记录。

  包括你在搜索引擎上的搜索,你在购物网站的搜索,你在各种App(不一定要是购物)中的搜索,这些你主动搜索的信息,都是高权重的X。

  如果是网页端的搜索,那么浏览器和搜索引擎都会留存你的cookie,即使你有定期清除浏览记录的习惯或者知道每次上完网清cookie也没用,现在云计算的发展已经可以做到实时上传,你清除也没用。

  2.除开搜索记录和购物记录外,最精准的数据之一就是你的手机App List以及注册App列表。

  就是你的手机曾经安装过哪些App,当前手机安装了什么什么App,以及每一个App的打开率,使用时长等等。

  这个通过用户授权直接读取App列表以及通过短信验证码反推安装注册可以实现,即使是号称IOS,也可以通过App跳转撞库的方式来撞出至少48个App。

  每一个App都是代表了一大串的X,毕竟每个App都有自己的属性和目标用户,这些特征都是很显著的。

  你安装了拼多多,可能代表你是一个价格敏感型用户,可以给你推送便宜货;

  你安装了Bilibili,可能代表你是一个喜欢二次元的用户,可以给你推荐动漫周边;

  你每天大量时间沉迷在短视频,可能代表你是一个热衷于Kill Time的人,当然厂商还会用你浏览记录来更精细化的推荐各种二类电商产品;

  你用什么App,某种程度上在机器眼中你就是什么人。

  3.LBS地理位置是一个非常有用,但是很多人都会忽略的内容。

  很多所谓的谈到奶茶后,打开外卖App会弹出奶茶店铺广告的案例,其实都是因为使用了LBS推送。

  大家都知道App会实时获取用户的地理位置,生成与之相关的X,而外卖店铺,本身也有自己的业务辐射范围。

  当你走入到这个外卖店铺的辐射圈子的地理位置时,就给你推送相关的信息,让你不得不看。

  某著名网红插,就经常喜欢对自己门店2公里内的外卖App用户进行无差别推送,别管你喝不喝,来了就先看个广告吧。

  获取LBS的途径有很多,很多时候通过WIFI的固定连接点,也可以识别你是不是在那幢楼办公或者生活,然后围绕这一变量给你进行推送。

  你在哪里,你就是谁。

  4.聊天记录读取,短信读取,这种东西都太寻常了,我要说的是,输入法。

  只要你打字,你的输入法是知道你键入了什么内容的,这部分内容,都会被留存下来,然后作为你特征变量的一部分,这可比录音要好多了,因为百分百是你本人打的字,而且文字表达的含义也更加清晰。

  某些输入法,就在做着这样的事情。

  输入法既然可以监控你的录入,当然也可以直接读取你的剪贴板,看到你曾经读取过什么。

  甚至技术厉害一点的,可以直接监控你的键盘轨迹,连你曾经打出来但是又删除掉的内容都拿到。

  哦对了,关于录音,有一点是真的,就是当你用输入法的语音录入功能的时候,他们确实是知道你的录音的,只不过不是读声音,而是通过录音转录文字后的关键词,是读文字。

  输入法对于用户隐私的监控与泄露,是非常严重的,而且大多数人都无从感知。

  你忘记的,输入法都记得呢。

  5.当然,手机本身,就是一个最大的隐私收集器,在系统厂商和硬件厂商眼中,大家其实都是裸奔的。

  再讲一个恐怖故事,这些从各种App,各类输入法,各种手机中收集来的用户数据,都是可以交易的,各家公司都在利用这些数据。

  随便举一个例子。

  用户在头条App中用百度输入法输入【尿不湿】,百度和头条都知道用户在头条输入了这个【尿不湿】,他们有了这个数据,这个数据并且是直接关联用户手机号的,就是说,大家知道是谁,在什么时间,在哪个App里,输入了什么。

  而这条精准的用户信息,是可以卖给淘宝或者京东的,淘宝获取了这个信息后,就可以对这个手机号关联的用户去进行相关的推送。

  这个市场的体量和交易额远远超出所有人的想象,但是知道的人却寥寥无几。

  6

  如果要穷举各种App各种手机收集和利用用户隐私的案例,可能讲几天几夜也讲不完。

  我来给大家讲一个基于数据采集的用户画像案例吧,看看我们的一生是如何被数据拆解的。

  下面的文字部分为正常生活描述,括号内为获取这些数据的途径。

  小明,在广告公司上班(通过短信读取公积金信息,或者支付宝绑定公积金)。

  28岁,男性(身份证号拆解)。

  本科学历(学信网接口通过身份证号调用),外地人(身份证号前6位对比工作所在地)。

  租房(租房App或者代缴水电费账户名字与本人不同)。

  贷款买了一辆小车(贷款App数据,支付宝绑定行驶证,每月短信还款提醒)。

  平时的消费爱好是买书和拼多多(支付类App付款记录),以及打手游(游戏类App以及账号体系)。

  经常去XX网吧通宵(外卖收货地址,网吧管理软件用户体系)。

  住在XX小区(快递收货地址,手机LBS活跃圈,WIFI连接热点)。

  偶尔也去旅游(车票酒店购买记录,异地网红店消费记录)。

  甚至喜欢看点小电影(浏览器记录,购买付费记录,转发记录)。

  朋友很多(好友数,日常活跃好友数,通话记录与通讯录的交集),朋友们的消费水平也一般般。

  收入一般般(短信读取银行到账短信,手机话费余额消费账单)。

  有一个女朋友小红(聊天记录,通讯录,通话详单),已经同居(购买大量女性生活用品)。

  女朋友公司在XXX(基于小明除家里以外的收货地址,关联一些女性物品交易记录)。

  快要结婚了(网上搜索大量与结婚有关的信息,下载了婚礼类App)。

  最近可能要当父亲了(查看婴儿用品,网上搜索很多育儿经)。

  最近手头有点紧(下载了很多借款App,读取短信可以知道有些下款了,外部可以采购到他的多头负债情况)。

  等等等等等等等(10086个等等)。

  如果你是广告商,你拿到了这些数据,你可以非常精准的在小明人生的每一个阶段,都恰恰好推送一些恰恰好的广告,很多人可能光看描述就已经在构思营销方案了。

  而且,这还只是小明一个人的数据,如果再加上小红的数据,小明朋友的数据,小明父母的数据,最终就会成为一张关系网。

  例如当小红在搜索孕妇装的时候,其实就可以给小明推荐奶粉和婴幼儿保险了。

  例如小明在搜索各种片子的时候,其实就可以给小红推荐一些情趣用品了。

  这种关联多如漫天繁星。

  星空下是我们平凡的人生。

  如戏一般的人生,剧本不在我们手中。

  我们只是一颗棋子。

  7

  斯诺登的棱镜事件大家都还记得吧,美国政府在全世界范围搞监听。

  但要我说,棱镜那个东西,在大数据多维交叉验证面前,只是上个世纪的玩具。

  通过数据挖掘和收集,我知道你的爱好,知道你的活动范围,知道你的详细信息,知道你的社交圈,知道你可能要做的事情,知道你的一切。

  我比你还要懂你。

  为什么我国政府近几年特别重视个人隐私,对于各种滥用隐私行为都是严厉的打击,每年都有大量数据从业者被送进去?

  因为当企业知道用户的一切的时候,某种程度上,就可以通过推送,来影响用户的一切。

  这个影响可以是精准推送赚钱,也可以是做的更多。

  还记得美国大选的时候,FaceBook直接倒卖用户数据来监控舆情,甚至通过精准推送来影响大选的结果?

  这是一种超越国界的能力。

  不仅仅是改变世界,甚至是掌控世界。

  而回到我们自己。

  我们的一切,在公司眼中,只是一个个数据标签,是达到他们目的的必要生产资料而已。

  他们做的就是把我们做成数据,然后向我们灌输数据,从我们身上得到他们想要的东西。

  我们一生的欢笑与泪水,开心与难过,认真的思考,谨慎的决策,最终都不过是一组数据,都是可以被拿来利用的。

  他们甚至都不屑于支配我们,你会去冲着一堆数据使劲儿吗?

  他们只需要调整参数就可以达到目的。

  现在巨头们已经完成了数据的合围,然后通过交易来垄断这些数据。

  我们的一切都透明了,再技术飞速进步的年代,钱和权力都无法阻止这一切发生,除了死亡外,人类在大数据面前也是平等的。

  这一切都不是秘密,完全是公开的事情,甚至那些卖数据的公司都恨不得自己去打广告找到更多的买家来买,因为卖的人太多了,市场竞争过于激烈,数据量过于饱和。

  这魔幻又现实。

  数据像大白菜一样摆在那里交易,交易的是我们每个人的人生。

  我们的一生的故事都在里面,爱也在,恨也在。

  大数据的发展确实给生活增加了便利,这无可否认。

  但如何掌握数据采集和数据应用的度?这是一个很大的问题。

  更大的问题在于,这种被设计好的生活,真的是我们想要的吗?

  我还没有答案,你呢?

分享到:
保存   |   打印   |   关闭