新版AlphaGo大战柯洁 消耗能量仅是李世石版的1/10

2017年05月27日 09:47 新浪综合
微博 微信 空间 分享 添加喜爱

  新版AlphaGo大战柯洁,消耗能量仅是李世石版的1/10

  Alphabet 董事长埃里克·施密特:希望通过柯洁去看AlphaGo的潜能

  ■IT时报记者 吴雨欣

  与李世石一战成名后的AlphaGo又迎来新的对手,5月23日,为期5天的围棋峰会开幕,峰会总共有5场不同形式的对弈,其中包括三场AlphaGo与世界排名第一的柯洁九段的三番棋较量。

  在乌镇比赛现场,《IT时报》记者目睹了拥有更强大策略和价值网络的新版AlphaGo正展示出它的威力,在前两场的比赛中,代表人类出战的柯洁全部惜败。

  落子速度优于人类

  现年19岁的柯洁是目前世界排名第一的职业围棋选手,5岁开始学棋,10岁的时候成为职业选手,曾先后四次获得国际大赛冠军。首局失利的他似乎心情并没有受到太大影响,在第二局开赛的前一天,悠闲地在乌镇钓鱼、射箭,还不忘向同伴展示自己的钓鱼成绩。25日,柯洁轻松步入对战室,开局20分钟后,柯洁神色渐渐凝重,在后期展示出不同于与人类比赛时的“杀气”。AlphaGo则在开局第一手就不走寻常路,选择右下角落子,而人类对局第一手多会选择右上角。最终,在第二场比赛中,柯洁出现失误,AlphaGo再次取胜。

  一直以来,围棋被认为是传统竞技中对人工智能最具挑战性的项目。这不仅仅是因为围棋包含了庞大的搜索空间,更因为对于落子位置的评估难度已远远超过了简单的启发式算法。自从去年3月AlphaGo 以4比1的总比分战胜李世石后,AlphaGo就成了人工智能领域的一个重要里程碑。

  “AlphaGo最强大的地方并不体现在具体某一手棋或者某个局部的变化,而是它在每一局棋里所展现出来的独特视角,在它的世界里,没有什么先入为主的概念,也没有什么必须要遵守的规则, 从第一步开始,AlphaGo就在计算每一步的胜率,进而选择最佳落子位置。”DeepMind 的联合创始人兼 CEO Demis Hassabis向《IT时报》记者介绍,AlphaGo Lee(与李世石对战的AlphaGo)在谷歌云上有50个TPUs(谷歌人工智能训练系统)在运作,搜索50步棋的速度是10000个位置/秒,而与柯洁对战的AlphaGo Master是在单个TPU机器上进行的训练,这款谷歌上周在 I/O大会上所发布的新型芯片系统使 AlphaGo 在运行效率上得到了飞跃。与去年相比,当前的版本在处理计算时所消耗的能量仅为过去的十分之一,并能够更快速地进行学习。

  拥有强大算法的AlphaGo在与人类的比赛中展示出速度的优势。在柯洁与AlphaGo的第二局比赛中,柯洁的落子时间明显长于AlphaGo,在柯洁深思熟虑完成布局后,AlphaGo总能以很快的速度完成落子,而且经常下出违反人类直觉,却极具威力的一手棋。这种情况很像人类花了20分钟布了一个局,但对手只花了1分钟落子,而且根本没有理会你精心布下的局。

  拥有更强大的策略和价值网络

  AlphaGo让人们意识到人工智能的魅力。半个世纪以前,麻省理工学院,几个计算机系的教授第一次提到人工智能这个词,他们以为人工智能是一个夏天就能解决的问题,但直到现在人工智能还是难题。

  近几年,随着AlphaGo、无人驾驶的出现,人们重新意识到人工智能正在改变这个世界。数据显示,2011年,人工智能识别图像的错误率是26%,2016年的错误率下降到3%,比人类的识别能力要高出2%。对此,谷歌母公司Alphabet 董事长埃里克·施密特(Eric Schmidt)表示:“神经网络和深度学习的爆发是我所经历过的最大变革,这些改变不仅仅是围棋,而是为企业带来无限机遇,尤其是在医疗、交通以及政务等领域。”但相较于未来的发展,当前的业内人士更想弄明白AlphaGo是如何训练的。

  如果说打败李世石的AlphaGo设计之初是利用卷积神经网络,让它了解围棋的规则、看到棋牌反射到神经网络,从而了解棋局、周围的棋子,进行新的处理。那新版的AlphaGo就有了更多的“思考”,一是确保走对子,二是预测谁会赢。此外,AlphaGo积累了大量的优质数据,可以自学成才,上一代会成为下一代的老师。

  这种新颖的机器学习技术在AlphaGo首席研究员David Silver眼里,重点是如何让AlphaGo结合监督学习和强化学习的优势。

  为此,团队让AlphaGo先通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络,以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。也就是说,在这个过程中, AlphaGo不仅会算出自己的最优选项,还会根据自己下过的棋,经过多层处理形成一个“值”,值高意味着自己赢,低意味着对手赢,并在棋局中的某一步判断是否是关键的一步,因为这一步棋,决定了对手赢或自己赢。重要的是,在经过先期的全盘探索和对最佳落子的不断揣摩后,AlphaGo的搜索算法能在其计算能力之上,加入近似人类的直觉判断,使机脑更接近人脑。

  之所以进行AlphaGo和柯洁的比赛,是希望通过柯洁去看AlphaGo的潜能。“从比赛结果来看,差距非常小。”施密特说。柯洁与AlphaGo被认为是人脑与机脑的较量,但不管输赢,依然是人类的胜利。在经历两场败局后,5月27日,柯洁将第三次迎战AlphaGo。对于此前的败局,柯洁赛后表示:“AlphaGo下得太出色,我输得没脾气,很厉害。”

推荐阅读
聚焦
关闭评论