专访德扑AI背后专家:人机战不靠深度学习 靠“谈判”

2017年03月31日 08:19 新浪科技 微博
微博 微信 空间 分享 添加喜爱
卡内基·梅隆大学计算机科学学院院长安德鲁·摩尔接受采访卡内基·梅隆大学计算机科学学院院长安德鲁·摩尔接受采访

  新浪科技 周峰

  冷扑大师没有使用深度学习,这多少有点风水轮流转的意思。

  4月6日,在美国击败人类顶尖德州扑克选手的人工智能Liberatus接受创新工场邀请,化名“冷扑大师”,将在海南挑战中国职业德州扑克选手组成的“龙之队”。赛前在接受新浪科技专访时,开发冷扑大师的卡内基·梅隆大学计算机科学学院院长安德鲁·摩尔(Andrew Moore)揭示了在另一场人机大战中,战胜人类背后的基本原理:更加古老的线性规划(Liner Programming)。

  在解决面对不完整信息,获得最佳策略的问题方面,线性规划早就已经成为重要方法。在微观经济学和商业管理领域当中,这种算法已经被大量应用在降低生产流程成本。而在人工智能领域,它和深度学习火热之前的主流:贝叶斯网络技术息息相关,而后者也是目前互联网的通用基础技术之一。

2017年1月11日,职业扑克选手贾森·莱斯(Jason Les)在与Libratus较量德州扑克。1月30日,卡耐基梅隆大学开发的人工智能结束了与4名顶尖德州扑克选手之间的比赛,取得胜利。  2017年1月11日,职业扑克选手贾森·莱斯(Jason Les)在与Libratus较量德州扑克。1月30日,卡内基·梅隆大学开发的人工智能结束了与4名顶尖德州扑克选手之间的比赛,取得胜利。

  在采访开始前,摩尔表示,德州扑克游戏中包含了大量的隐藏信息,在本质上就是一种谈判。而通过人工智能谈判其实是卡内基·梅隆大学研究团队的初衷。他表示,赢得扑克游戏胜利能让人感觉人工智能非常厉害,但他也很期待人工智能能够在协商谈判并解决问题方面涌现出更多应用。

  以下为部分采访实录,新浪科技整理:

  新浪科技:冷扑大师好像和AlphaGo不一样,没有从人类玩牌的结果中学习。德州扑克人工智能和围棋人工智能有哪些不同?

  安德鲁·摩尔(以下简称AM):扑克是一个规则非常简单的游戏,但是有很多隐藏信息,而围棋没有隐藏信息,所以做围棋方面的人工智能,需要进行非常深度的棋谱搜索。而做扑克游戏的人工智能要面对的问题是有非常多的诈唬策略要一一考虑。

  新浪科技:冷扑大师有没有使用到神经网络和深度学习技术?

  AM:冷扑大师没有使用神经网络和深度学习方面的技术,而是使用了最为传统的线性规划(Liner Programming)。

  我可以讲得稍微细一点。计算机需要算出最合适数量的诈,因为无论诈数量过多或者过少,都可能被其他牌手利用。数学家约翰·纳什曾经计算出的一个等式来解决类似的问题,但是要想真的计算出最合适数量的诈,这个等式可能会有无数的变量,而我们在冷扑大师身上应用的计算机技术可以得出最接近正确答案的解决方式。

  新浪科技:李开复之前写过自己玩德州扑克的感受,他说想要玩好,就要把人性摆在一边。冷扑大师在比赛时是靠算牌,还是用统计方式研究对手打心理战?

  AM:算牌是赢牌的正确方式。不过这样做的计算量很大,冷扑大师需要完成1000万小时的计算才能形成它的策略。

  但用统计数据来研究对手玩法不是一个好办法,因为一旦我知道你在统计我的玩法,我就会故意使用变换押注方法,实际上可以绕开你。

  所以就像我刚才说的,冷扑大师没有使用心理战赢牌的企图,只是使用数学方法而已。

  实际上过去十年是大数据和机器学习发展的十年。但冷扑大师所用的线性规划与这两者有很大不同,它是实现最优解(Big Optimization)的技术,相信未来的技术前沿也是实现最优解的技术。

4月6日,6位华人牌手组成的中国龙之队将在海南挑战Libratus。但队长杜悦(左四)表示,龙之队的胜算可能只有10%。  4月6日,6位华人牌手组成的中国龙之队将在海南挑战Libratus。但队长杜悦(左四)表示,龙之队的胜算可能只有10%。

  新浪科技:和龙之队比赛的赛制,与常见的多人德州扑克牌局不同。为什么会选择一对一形式的比赛?是和算法限制有关吗?

  AM:德州扑克中最考验牌手技术的反而是双人对战,如果有更多牌手的话,其他牌手间的技术差别反而会被利用。

  新浪科技:除了德州扑克之外,冷扑大师所采用的技术还可以用在哪些领域?

  AM:我最喜欢的商业用途当然是商业谈判,可以通过人工智能来实现在最合适的时间,以最合适的价格找到最合适的供应商。

  谈判其实是非完整信息博弈理论中一个不错的例子,因为谈判的时候,我们不一定会透露真实的想法。我们的研究人员认为计算机能够与人类或者其他计算机进行交谈和谈判的能力非常重要。计算机的这种能力就是我们下一个研究方向。

  实际上,除了德州扑克之外,相同算法还可以帮助很多需要器官移植的人,比方说Kidney Exchange。在美国,这个算法每年能帮助数百位患者实现肾脏移植的匹配。

  新浪科技:所以冷扑大师背后的技术实际上是通用的。

  AM:冷扑大师所采用的技术确实可以应用到其他领域,来帮助人类找回丢失掉的信息。比如购买一间公寓,这就是一个谈判过程。如果我聘请的人类房产中介直接告诉卖家我愿意出多少钱买他的房子,那我肯定马上炒他的鱿鱼。因为他的工作就是在隐藏我信息的前提下,和卖家达成交易。

  新浪科技:怎么看待中国的人工智能市场?对人工智能开发者有什么建议?

  AM:从投资数量上能看出中国人工智能市场的发展是多么欣欣向荣。这是非常明智的投资,因为各行各业的自动化是未来经济增长的强劲动力。

  但是,我认为一般意义上的人工智能技术工具,发展前景其实不大,而可以直接用于行业发展的人工智能才有真正的发展前景。我喜欢哪些可以将技术应用在已有行业的人工智能初创公司,而不是那些研发一般性技术供其它公司使用的企业。

  就我个人来说,如果你的初创公司有可以帮助自闭症儿童快速学习的人工智能技术,那我就会有非常强烈的兴趣。而如果你的公司有可以让机器学习更加准确的技术,那就不是很好了。

2015年,创新工场CEO李开复获得卡耐基梅隆大学授予荣誉博士毕业前,与安德鲁·摩尔(右一)的合影。  2015年,创新工场CEO李开复获得卡内基·梅隆大学授予荣誉博士毕业前,与安德鲁·摩尔(右一)的合影。

  新浪科技: 2015年卡内基·梅隆大学有将近50名科学家陆续被Uber挖走。而人工智能领域的顶尖专家加入企业也是目前的趋势。您对当前人工智能教育环境是否有担忧?

  AM:从2015年1月起,我们新录用了26名教职员工,而只有4个人离开。目前匹兹堡(卡内基·梅隆大学所在地)也已经成为了全世界的自动驾驶技术中心。科研专家加入企业看似是个问题,但这反而对大学和匹兹堡都有利。

  实际上,我在担任卡内基·梅隆大学计算机科学学院院长之前,在谷歌从事机器学习系统方面的工作。虽然我喜欢谷歌的工作,但我还是决定重新回到卡内基·梅隆大学,因为当今世界上最顶尖大学所从事的研究工作是极其重要的,也将决定21世纪的发展情况。而我所需要解决的一个问题就是,在一个人工智能已经实现商业化的世界里,大学可以扮演什么角色。

  比如卡内基·梅隆在10-15年前就已经开发出了自动驾驶技术,那么下一步应该做什么?我们不想一直关注业界已经在做的事情,而是可以有哪些前瞻性的研究。

  对于想离开大学的教职工,我不是劝留,而是鼓励他们这样做。其实开发冷扑大师的Toumas Sandholm就已经建立了一家公司,叫Strategic Machine Inc.。这家公司就是从卡内基·梅隆大学拆分出来的。大学会将人工智能应用在扑克上的技术授权给公司,公司再专注与不完整信息博弈的研发和商业应用。

  对于新录用的人,我其实会建议他们在这里做4-5年的研究,加入业界工作上3年,然后再回来做5年研究,这才是应该有的职业生涯,二者都不耽误。

推荐阅读
聚焦
关闭评论