欢迎关注“创事记”的微信订阅号:sinachuangshiji
文/黑奇士 司马子羽
2017年12月12日,成立11年的老牌旅游网站马蜂窝宣布获得D轮巨额融资,淡马锡、今日资本等合计投资1.33亿美元。
彼时投资界虽有“过冬”的声音,但仍然经常有几千万美元融资的案例出现。
9个月之后,马蜂窝再次传出需要下一轮融资的消息,他们希望以20-25亿美元的估值来获得3亿美元。
D轮之后,一般来说股票比例(利益分配)已经相对固定,出让13%的股票换取现金,这个出让比例近乎砍手断脚,背后的潜台词是:马蜂窝需要更多的钱来烧,否则可能有崩溃的危险。
可惜,现在的2018,再不是嘴上喊过冬,而是所有人都没钱了。
在这种环境之下,爆文《估值175亿的马蜂窝 竟是一座僵尸和水军构成的鬼城》在周末刷爆朋友圈,就显得特别的意味深长。
是谁捅了马蜂窝,是谁在有计划有目的的打压一个独角兽的估值……在其寻求下一轮巨额融资的当口?
黑奇士将抽丝剥茧,带你分析整个事件。
旅游网站抄袭餐饮点评?
众所周知的是,马蜂窝以旅游攻略见长。
2006年1月上线,2010年3月正式投入公司化运营。4年时间里,马蜂窝攒了15万活跃用户。
以这种“慢公司”的劲头,如果马蜂窝要抄袭,应该是抄袭给他带来最大利益的部分。
在乎睿数据提供的材料中,7000多个有抄袭嫌疑的账号,搬运的却是餐饮类内容点评。在自媒体“小声比比”和其数据提供团队“乎睿数据”共同制作的爆文中,并未提出合理解释。
餐饮类点评有助于马蜂窝来巩固自己的“旅游攻略之王”地位吗,这种抄袭的目的何在?当然,这种抄袭有另外的暗黑解释,我先把他放在这里,后文会揭开这种抄袭可能存在的原因。
揭黑背后的融资暗战
自2017年开始,广大吃瓜群众看到,财大气粗的投资人、外表光鲜的创业者和纵横捭阖的巨头之间,因为利益而爆出的一幕幕黑暗融资战斗:
在被美团收购表决会议上,摩拜的投资人、创始人同床异梦心怀鬼胎;
OFO一波三折的卖身投票,阿里、滴滴和戴威之间的尔虞我诈,在这些过程当中,不断有媒体爆出“黑幕”,甚至有人拿出OFO的财务数据去打压其估值和现金流,迫使其卖身求存;
锤子科技不断爆出的“现金流枯竭”、“裁员”等,仿佛一直挣扎在死亡边缘;
……
这些技俩之后,有的投资人用揭黑来打压企业估值,以求在下一轮融资中用更少的金钱来占据更多份额;
有的是创业者想独立运营,不想投入巨头怀抱,巨头以揭黑来胁迫其出售股份;
还有的是巨头A用揭黑来打压企业现金流,避免让巨头B在收购战中占据先机;
如此种种,但凡创业者对其江湖黑暗有一点点幻想,就会被严酷的现实来打脸。
只是不知道,这次马蜂窝遇到的,是黑暗套路的哪一种。
爬虫之战
网络爬虫,又被称为网页蜘蛛、网络机器人,是按照一定的规则,自动地抓取网络信息的程序或者脚本。
比如,创业公司想做个旅游网站,自己一穷二白毫无内容可言,怎么办呢?爬虫这个大杀器就被拿出来。
只要普通网民能看到的内容,爬虫就可以“看到”,可以复制和黏贴,从各大网站抓来内容填充自己的网站。只要抓取几天,一个像模像样的网站就可以制作完成,真实用户来以后,也不会发现破绽。
不少创业公司的基础内容(或者巨头的创业项目),都是网络爬虫来完成。
从乎睿数据爆出的证据来看,有两个合理猜测:要么是马蜂窝在启动餐饮点评项目的时候,抓取了其余友商的数据来填充;
但是乎睿数据没提供内容时间对比,两个网站内容相同,可能是A抄袭B,也可能是B抄袭A,或者是第三方同时在两个网站建立账号,就像黑奇士在新浪搜狐等十多个网站发文,拿我的账号说新浪抄袭搜狐,那不就不对了。
去年11月,黑奇士写过一篇揭露旅游网站流量黑幕的文章:《机票暗黑江湖:订票网只有10%真流量 低价票根本买不着》,专家揭露说,旅游网站的低价机票有不少被代理商爬虫抢走,普通用户根本订不到。
爬虫的用途之广泛,是普通网民无法想象的。
五毛党江湖
除了爬虫之外,另外的一个合理猜测,是有不法团队在做恶意内容,企图在马蜂窝“养号”,也就是所谓的“五毛党”。
这个是互联网上灰色产业一种,比如在微博初起时,有人建立几百个账号,专门从youtube上搬运内容,把自己养成微博大V,红了之后可以获取每年几百万、上千万的广告收入。
黑奇士了解到,凡是依靠用户产生内容的平台,都会有这种“五毛党养号团队”出现,无论微信公众号这样的综合平台,还是汽车之家、大众点评这样的垂直网站,都有养号团队出没。
即使养的号没成大V,用来做“五毛党”也是很好的生意,通常来说,活跃账号都有更高权重,用来贴有利于商家的评论、或者打压对手,这些账号都是最好的载体。
“养号”,可以解释为什么一个账号即可以在广州陪老公吃饭,又在天津订了豪华酒店,因为这些饭店、酒店,就是他们的金主,每一个评论可以赚取最低5元、高则几百元的费用。
同理,抽奖抽中僵尸用户,实在是非常非常正常的事。公司做一次转发抽奖,参与的真实用户仅有几百个,僵尸用户几万几十万,结果奖品被僵尸用户背后的操纵者领走。
这只能说,马蜂窝封禁僵尸用户不利,不能证明这些僵尸用户是马蜂窝官方养的。
(5)防范暗箭明枪,还需武功更强
当然,本次马蜂窝僵尸用户事件,上述分析并不能完美解释所有疑点。
比如,为什么普通网友很难抢到的低价产品,自家员工却可以轻易买到,这其中是否有内部腐败?
因此,希望马蜂窝自身进行严格核查,对乎睿数据指出的7000多个账号进行检查,最简单的就是:公布这些账号的登陆IP和内容操作轨迹,看他们是从哪里登陆的,必要时要提起法律诉讼。
黑奇士采访了相关专家,对于UGC网站如何防范爬虫和恶意内容:
顶象技术专家田际云指出,“爬虫”不仅能够抓取旅游用户评价和账户信息,更可以爬取商品或服务的类目、图片、价格等关键数据。数据是互联网平台的重要资产。这些“爬虫”的非法操作不仅窃取了平台的数据资产,消耗了网站和平台的服务和带宽资源。
顶象数据反爬解决方案能够有效防止各类非法爬取行为和恶意爬虫。该方案在登录端部署顶象的智能无感验证,直接拦截爬虫对重点数据的爬取。同时,结合顶象设备指纹和实时风险决策系统,实现对于爬虫的总体拦截。再基于对抗过程中的数据积累,利用智能分析平台对数据进行分析,建立基于符合业务场景和需求的风控策略,实时优化风控效果,良好防范数据遭恶意爬取的风险。
除了技术对抗之外,遭到爬虫抄袭的公司还可以拿起法律武器来维护自己的利益:
2017年10月,今日头条前员工宋某和侯某,因为使用爬虫技术爬取今日头条的视频内容,被北京市海淀区人民法院判处9个月至1年不等的有期徒刑。
该判决使宋某和侯某创立的公司直接进入死亡状态。
黑奇士采访的法律界人士表示,随着《网络安全法》的严格实施,以往看起来只是技术对抗的爬虫和反爬,很容易触犯刑法,受到刑事制裁。例如有的用户账户包含住址信息、发布的内容包括电话、住址等敏感信息,这些信息被爬取之后,就可能触犯刑律。
文章关键词: 网络文化