阿里CTO张建锋:双11核心系统100%上云

阿里CTO张建锋:双11核心系统100%上云
2019年11月11日 22:44 新浪科技

  新浪科技讯 11月11日晚间消息,在平稳度过2019天猫双11流量峰值后,阿里巴巴正式宣布,其核心系统已100%跑在阿里云公共云上。

  阿里巴巴集团CTO、阿里云智能总裁张建锋透露,今年双11期间,基础设施全面上云,阿里云在线业务容器规模近200万、100%采用神龙弹性裸金属服务器、计算性价比提升20%。

  他表示,今年也是阿里云第十年,阿里云有个特别的名字叫飞天操作系统,也是中国唯一自研的云,是中国国产的一朵云。

  今年双11,零点刚过1分36秒,天猫成交总额便突破100亿元,今年的订单创建峰值达到 54.4万笔/秒,是2009年第一次双11的1360倍。

  据悉,两个月前,阿里巴巴就已悄悄完成这一浩大的迁徙工程,将数以十万计的物理服务器从线下数据中心迁移到了云上。然而,淘宝、天猫的消费者和商家对这个“给飞机换引擎”的过程毫无感知。

  由此,阿里巴巴成为全球首个将核心交易系统100%运行在公共云上的大型互联网公司。

  张建锋还透露,双11期间,阿里云系统颠覆性能,每秒交易创建峰值54.4万笔,实时计算消息处理峰值25.51亿条/秒,批处理计算数据量双11当天达到982PB,消息系统峰值处理量15750万条/秒。他表示,以后所有阿里的系统都会在阿里云上。(雪梅)

  以下为张建锋讲话全文:

  张建锋:非常高兴,我是阿里巴巴集团CTO张建锋(花名:行癫),我在阿里巴巴这么多年,第一次在媒体现场跟大家介绍阿里巴巴的技术。现在的时间点非常好,我们刚刚过了2500亿交易额,过去的一天,20个小时是阿里技术上最经受考验的一次。

  我们从去年开始,决定把整个阿里巴巴经济体核心系统全部上云,其实上云还要加一个定语,是上“阿里云”,并不是上任何一朵云都能撑得住这个流量。在中国,我们经常说中国有两朵云,一朵叫做“阿里云”,还有一朵叫做“其它云”。

  为什么讲阿里云跟其它云不一样,因为在中国只有阿里云是完全从头研发的一朵云,从头是从每一行代码,从十年前开始写,今年是阿里云的第10年,所以我们这个云有一个特别的名字,叫做“飞天操作系统”,当初王坚博士创办阿里云的时候,对我们这个云下面的调度系统,整个云的基础平台,我们叫做“飞天操作系统”。

  我们的云完全是中国国产的一朵云,其它中国的很多云从开源软件改造过来的,这是非常大的不一样。

  第二个,主持人刚才也讲了,今年双11,阿里仍然是一家在高速飞行中的飞机,我们成功的在这个过程中换上了全新的引擎。很多人问我,核心系统上云到底意味着什么,我们讲以前的云都是为一些非核心负载用的,我们的云把原来专用的现在变成公共云,大家都可以来享受普惠服务。我们讲云最强调普惠,我们有最好的系统,你们也可以在上面跟我们一样使用。

  今天我们讲的是阿里云第一次可以承载一个非常核心的系统,这个是我们全球第一个做到的,因为很多云的厂商自己也有业务系统,但是自己的系统肯定不在自己的云上。我们以后所有阿里系统全部都在阿里云的操作系统上面。

  大家一定会想,我们到底是做了什么样的工作?这是一个简单的替换还是技术上非常大的一个进步、非常大的挑战。我简单说一下,我们有几个方面做得非常好,它不是简单的替换,上云之后性能有了一个非常大的提高。

  今天大家可能有感觉,我们前十分钟,基本上消费者没有感受到任何抖动,大家购物非常顺畅。

  第一我们在核心虚拟机系统上,自己研发了神龙系统,我们用自研的服务器来做虚拟化,一般的服务器随着压力增长,最终负载能力会慢慢下降,它不是线性的。我们神龙服务器压力越大,输出也是非常线性的,这是非常难做到的。

  第二我们自研了完整的数据库,今年有两个数据库,一个是自研的OceanBase,大家知道我们在TPC-C测试里面拿下了全球第一。第二我们自己有一个PolarDB,也是广泛用在这次双11上,没有任何问题,我们每秒峰值也是远远超越于原来Oracle这样传统的数据库。

  第三,我们的计算与存储做了分离,现在阿里巴巴存储是有一个地方专门存数据的,数据都是从远端存取的,所以存储可以很方便的扩容,因为它有一个专门的池。原来做不到。因为原来远端存储,访问网络速度就跟不上。

  所以有了我们第四个核心技术,我们现在能够做到在远端存储,能够比本地读写磁盘更快,我们做了RDMA网络,这是全球第一个大规模做RDMA网络的公司。

  我们这四个方面都做了核心突破。

  飞天操作系统,今天能够在10万台级别以上的服务器里面做调度,今天双11有非常多的应用,但是它并不是说每一个时间点,所有应用负载都是一样的。我们在零点把大部分计算机资源分配给交易等等应用,过了一点之后,我们把数据分配给数据处理系统,数据处理今年创了一个新高,2017年当天处理了300PB的数据,2018年处理了600PB的数据,今年处理了970P左右的数据。

  大家可能没有概念,一个P到底有多少数据,我上次跟央视的人交流,央视的人拍了这么多年电视新闻节目,几十年下来,他们存了大概80P的数据,双11一天,我们要处理970P的数据,非常大的量,没有一个先进的系统是撑不住的。

  第二个是非常实时,大家看到了,今天你在秒杀,在会场全部都是个性化,千人千面的,这里的数据不仅是大,而且是要做到非常实时,到目前为止,我们菜鸟物流系统已经产生了超过10亿笔的物流单,这个数据还在很快的上涨,到24点之后,他们会有正式公布数据,这些所有的数据都是在飞天云计算平台上做运营。

  我们这么多服务器,要把它全部管理起来,除了飞天系统之外,还要管理所有的消息流转,所以我们自己开发了一个叫做MQ的消息系统,这也是全球目前最大的一个消息系统。

  我们今年的数据,除了批处理之外,还有流处理,就是实时处理所有数据,就像你们看到的交易数据,每分钟、每秒钟都在变,它并不是从数据库里面统计出来的,它是每生成一笔订单,我们通过一层层把所有数据汇集上来。我们这个系统每秒能处理25亿笔记录,这是流式的系统。

  今天从阿里云、从飞天系统、从大数据处理平台、从智能化应用,这些技术叠加起来打造了一个新的分布式的基于云的平台,才使得阿里整个经济体所有核心应用都能够跑在上面。

  最后大家也知道,我们今年除了数据库突破之外,也发布了自己的芯片,含光800芯片,我们估计在明年这个时候,大量的一些人工智能处理应用都会跑在自己的芯片上面。今天像网络,我们从飞天云计算系统、神龙服务器、数据库、交换机、交换机操作系统、RDMA网络,全部都是阿里自研的。

  我们今天已经积累了非常丰富、非常强的能力,从硬件、数据库、云计算操作系统,到云的操作系统上面的核心应用,五位一体的平台,这是这次双11跟往年最大的不一样的地方,我简单分享这一点,谢谢大家!

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片