深击|阿里云故障“惊魂”1小时：难道我们是那0.1%？|阿里云|服务器|故障_新浪科技

　　新浪科技韩大鹏

　　编辑周峰

　　6月27日晚，北京国贸写字楼2座灯火通明。林晓宇疾步往返于运维部与研发部的走廊上，表情有些凝重。

　　一场因阿里云故障引发的突发事件，导致他所在的互联网金融公司几近瘫痪。在运维部工作近一年，林晓宇首次受到公司各层级领导的“关注”。

　　“很多部门的Leader都打电话，问我怎么回事”，面对质疑，林晓宇很是无奈。他回忆说，事发时，业务数据无法读取，交易短暂停滞，客服投诉量激增……运维部和开发部启动了自检，因服务器无法登录及文件存储NAS不能服务，问题也被很快确认：阿里云出了问题。

　　不能坐以待毙！

　　林晓宇所在的运维部启动了应急预案：在线服务失效，转为本地服务的Kubernetes容器集群，结果失效。采取手动更改，对象存储OSS失效，SLS失效……

　　留给他的，只有等待。

　　在等待的过程中，林晓宇一直琢磨：宣传时说“提供99.9%可靠性”，难道我们就是那0.1%？

　　惊魂一小时

　　根据阿里云官方描述，其在中国公共云市场占有率超过2至5名的总和，目前中国有40%的网站都在阿里云上运营，一半独角兽公司也在使用阿里云。以这个体量计算，即便是那0.1%的用户，因为不明原因“宕机”所产生的焦虑感，也足以在社交网络上掀起轩然大波。

　　当天下午4点半开始，不断有“阿里云宕机”的消息在微博和微信群中传出。用户们指出，故障原因集中表现在官方网站和控制台无法访问。而当时，阿里云内部人员向新浪科技提供的第一份回应是账户登陆异常，云服务器不受影响，此次故障并非宕机。

　　但官方回应迅速发酵出第二轮不满情绪。大量用户在新浪科技发出的微博下面投诉其他功能也被波及——和林晓宇一样，除了无法登陆之外，OpenSearch失效，ONS失效，NAS失效，OSS失效——简单来说，除了登陆环节异常外，阿里云的多个产品在该时段均无法使用。

　　最终，阿里云在下午发布故障公告，确认了除部分管控功能外，MQ、NAS、OSS等产品的部分功能出现访问异常。此次事故从16点21分至17点30分，时长约一小时。

　　一位用户点评道：中国互联网半壁江山，惊魂整整一小时！

　　半壁江山还是0.1%？

　　郭宁显然在另外半壁江山里。27日晚高峰，他走出望京的写字楼，挤上地铁，打开手机刷了眼新闻，才知道这天下午阿里云“挂”了。

　　“什么异常都没有。”郭宁目前在一家IT公司负责开发团队，产品均托管在阿里云上，涉及ESC和其他多个云服务。但他向新浪科技表示，自己的产品没有受到任何影响。“网上那些问题一个都没碰到。”

　　实际上，不只是郭宁，新浪科技接触到的多名开发人员中，大多数都和郭宁一样，在宕机期间内毫无感觉。而唱吧、e代驾等使用阿里云的移动互联网应用，也几乎没有发出过抱怨的声音。

　　不过，对于那些“惊喜”一小时的用户来说，麻烦是切切实实的存在。据新浪科技不完全统计，此次事故受影响的范围十分广泛，包括电商、互金、通讯语音及教育行业等。阿里云客服人员表示，“此次属于大面积故障，基本上平台大部分业务全挂了”，但具体影响范围及用户数量无法确定。

　　更麻烦的还在后面。

　　林晓宇说，虽然故障后来得到了排除，但部门需要进行业务数据修复，这无疑增加了工作量。

　　一家从事电商业务的员工告诉新浪科技，当天正进行用户拉新活动，注册短信接口全部失效，导致新增量在一两小时内为零，“老板不会关心服务器异常，他只会认为是我们工作没做到位”。

　　一个bug引发的惨案

　　次日凌晨，阿里云发布了故障原因说明：工程师团队在上线一个自动化运维新功能中，执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题，上线到自动化运维系统后，触发了一个未知代码bug，错误代码禁用了部分内部IP，导致部分产品访问链路不通。后续人工介入后，工程师团队快速定位问题进行了恢复。

　　新浪科技曾向阿里云方面询问具体的bug触发原因，但对方拒绝回答。

　　各种段子一般的推测加入了下一轮传播。其中流传最广的一个版本是：刚刚招了两个实习生——误删了登陆服务。

　　“实习生误删登陆服务之说，应该是不存在的。”IT领域自媒体“Linux高薪集训营“引用了原美团点评运维架构师及马哥教育联合创始人张sir的解读，“一方面，大型互联网公司尤其是阿里云这样的公司，对工程师权限有着极为严格的控制，因为阿里云数十万台服务器，支撑了全国各行各业千亿以上规模的线上业务，不可能让实习生不熟悉的情况下，给予过高的管理权限。这是极其不专业的做法。”

　　张Sir从阿里巴巴内部得知，这次故障影响了整个阿里巴巴集团，其中包括阿里云、蚂蚁金服、天猫、飞猪、优酷等事业群，其中阿里云的故障等级为S1。