到底是什么让AlphaGo变得如此成功,AlphaGo将对战柯洁,人工智能未来会全面取代人类么?,柯洁与AlphaGo的人机大战,有何看点?...

到底是什么让AlphaGo变得如此成功
AlphaGo这个系统主要由几个部分组成: 走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。 快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。 估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。 蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。 我们的DarkForest和AlphaGo同样是用4搭建的系统。DarkForest较AlphaGo而言,在训练时加强了1,而少了2和3,然后以开源软件Pachi的缺省策略 (default policy)部分替代了2的功能。以下介绍下各部分。 1、走棋网络 走棋网络把当前局面作为输入,预测/采样下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数。棋盘上有361个点,它就给出361个数,好招的分数比坏招要高。 DarkForest在这部分有创新,通过在训练时预测三步而非一步,提高了策略输出的质量,和他们在使用增强学习进行自我对局后得到的走棋网络(RL network)的效果相当。当然,他们并没有在最后的系统中使用增强学习后的网络,而是用了直接通过训练学习到的网络(SL network),理由是RL network输出的走棋缺乏变化,对搜索不利。 有意思的是在AlphaGo为了速度上的考虑,只用了宽度为192的网络,而并没有使用最好的宽度为384的网络(见图2(a)),所以要是GPU更快一点(或者更多一点),AlphaGo肯定是会变得更强的。 所谓的0.1秒走一步,就是纯粹用这样的网络,下出有最高置信度的合法着法。这种做法一点也没有做搜索,但是大局观非常强,不会陷入局部战斗中,说它建模了“棋感”一点也没有错。我们把DarkForest的走棋网络直接放上KGS就有3d的水平,让所有人都惊叹了下。 可以说,这一波围棋AI的突破,主要得益于走棋网络的突破。这个在以前是不可想像的,以前用的是基于规则,或者基于局部形状再加上简单线性分类器训练的走子生成法,需要慢慢调参数年,才有进步。 当然,只用走棋网络问题也很多,就我们在DarkForest上看到的来说,会不顾大小无谓争劫,会无谓脱先,不顾局部死活,对杀出错,等等。有点像高手不经认真思考的随手棋。因为走棋网络没有价值判断功能,只是凭“直觉”在下棋,只有在加了搜索之后,电脑才有价值判断的能力。 2、快速走子 那有了走棋网络,为什么还要做快速走子呢?有两个原因,首先走棋网络的运行速度是比较慢的,AlphaGo说是3毫秒,我们这里也差不多,而快速走子能做到几微秒级别,差了1000倍。所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的,等到网络返回更好的着法后,再更新对应的着法信息。 其次,快速走子可以用来评估盘面。由于天文数字般的可能局面数,围棋的搜索是毫无希望走到底的,搜索到一定程度就要对现有局面做个估分。在没有估值网络的时候,不像国象可以通过算棋子的分数来对盘面做比较精确的估值,围棋盘面的估计得要通过模拟走子来进行,从当前盘面一路走到底,不考虑岔路地算出胜负,然后把胜负值作为当前盘面价值的一个估计。 这里有个需要权衡的地方:在同等时间下,模拟走子的质量高,单次估值精度高但走子速度慢;模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。所以说,如果有一个质量高又速度快的走子策略,那对于棋力的提高是非常有帮助的。 为了达到这个目标,神经网络的模型就显得太慢,还是要用传统的局部特征匹配(local pattern matching)加线性回归(logistic regression)的方法,这办法虽然不新但非常好使,几乎所有的广告推荐,竞价排名,新闻排序,都是用的它。 与更为传统的基于规则的方案相比,它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力,所以性能提高起来会更快更省心。AlphaGo用这个办法达到了2微秒的走子速度和24.2%的走子准确率。24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的,相比之下,走棋网络在GPU上用2毫秒能达到57%的准确率。这里,我们就看到了走子速度和精度的权衡。 和训练深度学习模型不同,快速走子用到了局部特征匹配,自然需要一些围棋的领域知识来选择局部特征。对此AlphaGo只提供了局部特征的数目(见Extended Table 4),而没有说明特征的具体细节。我最近也实验了他们的办法,达到了25.1%的准确率和4-5微秒的走子速度,然而全系统整合下来并没有复现他们的水平。 我感觉上24.2%并不能完全概括他们快速走子的棋力,因为只要走错关键的一步,局面判断就完全错误了;而图2(b)更能体现他们快速走子对盘面形势估计的精确度,要能达到他们图2(b)这样的水准,比简单地匹配24.2%要做更多的工作,而他们并未在文章中强调这一点。 在AlphaGo有了快速走子之后,不需要走棋网络和估值网络,不借助任何深度学习和GPU的帮助,不使用增强学习,在单机上就已经达到了3d的水平(见Extended Table 7倒数第二行),这是相当厉害的了。任何使用传统方法在单机上达到这个水平的围棋程序,都需要花费数年的时间。在AlphaGo之前,Aja Huang曾经自己写过非常不错的围棋程序,在这方面相信是有很多的积累的。 3、估值网络 AlphaGo的估值网络可以说是锦上添花的部分,从Fig 2(b)和Extended Table 7来看,没有它AlphaGo也不会变得太弱,至少还是会在7d-8d的水平。少了估值网络,等级分少了480分,但是少了走棋网络,等级分就会少掉800至1000分。特别有意思的是,如果只用估值网络来评估局面(2177),那其效果还不及只用快速走子(2416),只有将两个合起来才有更大的提高。 我的猜测是,估值网络和快速走子对盘面估计是互补的,在棋局一开始时,大家下得比较和气,估值网络会比较重要;但在有复杂的死活或是对杀时,通过快速走子来估计盘面就变得更重要了。考虑到估值网络是整个系统中最难训练的部分(需要三千万局自我对局),我猜测它是最晚做出来并且最有可能能进一步提高的。 关于估值网络训练数据的生成,值得注意的是文章中的附录小字部分。与走棋网络不同,每一盘棋只取一个样本来训练以避免过拟合,不然对同一对局而言输入稍有不同而输出都相同,对训练是非常不利的。这就是为什么需要三千万局,而非三千万个盘面的原因。对于每局自我对局,取样本是很有讲究的,先用SL network保证走棋的多样性,然后随机走子,取盘面,然后用更精确的RL network走到底以得到最正确的胜负估计。当然这样做的效果比用单一网络相比好多少,我不好说。 一个让我吃惊的地方是,他们完全没有做任何局部死活/对杀分析,纯粹是用暴力训练法训练出一个相当不错的估值网络。这在一定程度上说明深度卷积网络(DCNN)有自动将问题分解成子问题,并分别解决的能力。 另外,我猜测他们在取训练样本时,判定最终胜负用的是中国规则。所以说三月和李世石对局的时候也要求用中国规则,不然如果换成别的规则,就需要重新训练估值网络(虽然我估计结果差距不会太大)。至于为什么一开始就用的中国规则,我的猜测是编程非常方便(我在写DarkForest的时候也是这样觉得的)。 4、蒙特卡罗树搜索 这部分基本用的是传统方法,没有太多可以评论的,他们用的是带先验的UCT,即先考虑DCNN认为比较好的着法,然后等到每个着法探索次数多了,选择更相信探索得来的胜率值。而DarkForest则直接选了DCNN推荐的前3或是前5的着法进行搜索。我初步试验下来效果差不多,当然他们的办法更灵活些,在允许使用大量搜索次数的情况下,他们的办法可以找到一些DCNN认为不好但却对局面至关重要的着法。 一个有趣的地方是在每次搜索到叶子节点时,没有立即展开叶子节点,而是等到访问次数到达一定数目(40)才展开,这样避免产生太多的分支,分散搜索的注意力,也能节省GPU的宝贵资源,同时在展开时,对叶节点的盘面估值会更准确些。除此之外,他们也用了一些技巧,以在搜索一开始时,避免多个线程同时搜索一路变化,这部分我们在DarkForest中也注意到了,并且做了改进。 5、总结 总的来说,这整篇文章是一个系统性的工作,而不是一两个小点有了突破就能达到的胜利。在成功背后,是作者们,特别是两位第一作者David Silver和Aja Huang,在博士阶段及毕业以后五年以上的积累,非一朝一夕所能完成的。他们能做出AlphaGo并享有现在的荣誉,是实至名归的。 从以上分析也可以看出,与之前的围棋系统相比,AlphaGo较少依赖围棋的领域知识,但还远未达到通用系统的程度。职业棋手可以在看过了寥寥几局之后明白对手的风格并采取相应策略,一位资深游戏玩家也可以在玩一个新游戏几次后很快上手,但到目前为止,人工智能系统要达到人类水平,还是需要大量样本的训练的。可以说,没有千年来众多棋手在围棋上的积累,就没有围棋AI的今天。
AlphaGo将对战柯洁,人工智能未来会全面取代人类么?
最近正好也在关注这个话题,就来跟题主阐述一下我的观点。 关于人工智能未来会不会全面取代人类,首先,可以肯定的说不会,这次的人机对战,不过是谷歌一次非常成功的营销。当然光说比较薄弱。下面列举一些分析: 此次人机对战首次出现于2016年,在3.7日的女神节以及3.8日的妇女节刚刚过去后,相信很多人在2016年3月9日时又被一个围棋人机大战的新闻给刷了屏。如图: 可能你之前已经看过这场比赛,但在回答这个问题之前,首先还是得科普一下第一期的围棋人机大战的主角们(在下真的不是在混字数啊喂!) 既然是人机大战,那么主角当然是人和机器了,这个新闻的主要人物,是来韩国思密达的李世石欧巴,在围棋领域,他1995年入段,1998年二段,1999年三段,2003年因获LG杯冠军直接升为六段,2003年4月获得韩国最大棋战KT杯亚军,升为七段,2003年7月获第16届富士通杯冠军后直接升为九段。2006、2007、2008韩国围棋大奖--最优秀棋手大奖(MVP)。 而新闻的另一个主角,则是AlphaGo(中文名:阿尔法,但其实大家都喜欢叫他另一个爱称阿尔法狗。。。),阿尔法是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维·西尔弗、艾佳·黄和戴密斯·哈萨比斯与他们的团队开发,这个程序利用“价值网络”去计算局面,用“策略网络”去选择下子。其中,“价值网络”负责减少搜索的深度——AI会一边推算一边判断局面,局面明显劣势的时候,就直接抛弃某些路线,不用一条道算到黑;而“策略网络”负责减少搜索的宽度——面对眼前的一盘棋,有些棋步是明显不该走的,比如不该随便送子给别人吃。阿尔法利用这两个工具来分析局面,判断每种下子策略的优劣,就像人类棋手会判断当前局面以及推断未来的局面一样,这样阿尔法在分析了比如未来20步的情况下,就能判断在哪里下子赢的概率会高。 阿尔法和李世石将在3.9—3.15举行五场赛事,如果李世石胜利,可以得到谷歌提供的100万美元的奖金,还有,李世石每盘对局费为3万美元,每赢一盘还将获得2万美元的奖金。也就是说只要获胜,就是妥妥的百万富翁了,但如果失败,这100万美金谷歌则会捐给慈善组织。 这场比赛的结果很多人都知道吧,最终AlphaGo以总比分4:1战胜李世石。 之前,赢了比赛的AlphaGo的开发团队DeepMind曾表示有意愿来到中国,或许将与世界排名第一的柯洁一战。而在今年也确实来了,并且目前已连胜柯洁两局。 人机对战,或许听起来新鲜,但事实上这并不是人工智能挑战人类冠军的的第一例,早在1997年,美国IBM公司的“深蓝”超级计算机就以2胜1负3平战胜了当时世界排名第一的国际象棋大师卡斯帕罗夫。“深蓝”的运算能力当时在全球超级计算机中居第259位,每秒可运算2亿步。在2006年,“浪潮杯”首届中国象棋人机大战中,5位中国象棋特级大师最终败在超级计算机浪潮天梭手下。而2011年,“深蓝”的同门师弟“沃森”在美国老牌智力问答节目《危险边缘》中挑战两位人类冠军,并且也获得了胜利。 本次柯洁,李世石和阿尔法比赛的是围棋项目,围棋,一直被看做是人类最后的智力竞技高地。据估算,围棋的可能下法数量超越了可观测宇宙范围内的原子总数,显然以前阿尔法的前辈“深蓝”式的硬算下法在围棋上是行不通的。围棋的专业段位共分九个等级,最高是九段,以下依次分别为八段、七段、六段、五段、四段、三段、二段、初段。李世石是最高段位的九段选手,而且拿过的大奖无数,柯洁则是世界冠军,而阿尔法,在未与李世石和柯洁对局之前,阿尔法第一次崭露头角还是在2015年10月的一场比赛中,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。 阿尔法能屡屡获胜,也许就是因为他是机器人,若有观看过比赛,会发现阿尔法的下法非常强硬,新式的下法令观战的职业棋手目瞪口呆,而作为人类,我们最大的弱点是会受情绪波动的影响,对战过程中心态也是非常重要的,目前柯洁与阿尔法的大战,阿尔法再下一城,二比零领先。阿尔法的技术人员可以说是兴高采烈,一场比赛,有人欢喜自然有人愁,看第二场比赛结束后柯洁无奈认输沮丧的脸。 网下的两场比赛是结束了,第三场还没开始,网上却是热议纷纷,在经过几场人机大战比赛后,其实刷遍屏最多的基本都是这几个疑问:人工智能是否真的可以战胜人类的智慧?在很久以后,人工智能会全面取代人类吗?这类似于科幻小说一样的场面,会出现在我们身边吗? “2045年左右,人工智能将来到一个“奇点”,跨越这个临界点,人工智能将超越人类智慧,人们需要重新审视自己与机器的关系。”这句来自于美国未来学家雷·库兹韦尔的预言,随着一项项科研的突破,他的预言会不会一步步走向现实? 我们都或多或少的看过一些科幻剧,不少剧情是人工智慧超越了人脑,或者由于人类太过依赖人工智慧,机器人产生了意识对抗人类的故事,无论是终结者里的机器人大军,复联里的奥创,还是去年拿了奖的冷门好片机器姬,似乎都在告诉我们,机器人有了智慧和意识,将会是一件多么可怕的事。 人工智能到底是好是坏,对于现在来说,这是一个没有绝对答案的问题,科技在改变我们生活,给我们带来许多便利的同时,也让人产生了很多惰性,无人车,无人飞机,智能对话机器人,以及现在的阿尔法,人工智能时代离我们越来越近,也许在未来的日子里,出门不用自己开车,孤单了家人不在,和机器人聊聊天,无聊了朋友没空,和机器人下下棋玩玩游戏,饿了不用自己做饭,一个指令,机器人就麻溜的把饭做好了。 人工智能离我们的生活越来越近,也在悄悄改变着我们的生活,这是无需置疑的,机器姬的导演嘉兰形容影片中的"未来"相距离我们只有"十分钟远",并解释即便某个科技公司发明出片中的伊娃(机器姬的主角,是一个可以拥有人类情感的机器人)他也不会吃惊。但若认为,成熟的强人工智能甚至超人工智慧,将会是人类的最后一个发明,人工智慧将取代或者毁灭人类之类的,则有些悲观了。人工智慧仍然受人类约束,杀人的,并不是刀,而是持刀者。 实际上,关于此次人机对战,更多的是谷歌的一次商业营销,这场比赛让谷歌和围棋得到了一次全球的关注。在国内,腾讯视频、围棋TV等多家网站邀请专业棋手和嘉宾对比赛进行直播。比赛进入了微博热搜榜,在东亚地区,围棋热再一次掀起。自从去年阿尔法和李世石一战后,在韩国,围棋的热度几乎覆盖了各个媒体。因为有了人机大战,全世界这一刻都在关注围棋,这在围棋运动历史上,也是里程碑式的。 谷歌整了一场人机对战的噱头,从和李世石一战后就股价大涨,名利兼收。谷歌旗下设计围棋阿尔法的公司DeepMind这两年正在推进自身的医疗技术,由于阿尔法的围棋领域效应,公司也获得了不菲的订单。 人工智能虽然能像人那样思考、也可能超过人的智能,但永远不可能全面取代人类。人机大战,其实抛开比赛结果不说,在这场全民赛事里,正如谷歌董事长施密特在首次开展时所言,无论此次比赛谁获胜,人类,都将是最大的赢家。
柯洁与AlphaGo的人机大战,有何看点?
就在明天,世界排名第一的柯洁将与Google 围棋人工智能 AlphaGo 展开对战,这也是自从去年 AlphaGo 与韩国棋手李世石的对战之后,Google 再次把奖金的价格由100万美元提高到 150 万美元的一场比赛。本次比赛将在乌镇举办。相信很多围棋爱好者都很期待看到,这个人脑与人工智能到底谁更厉害。 目前世界第一的中国围棋选手柯洁是否能赢得比赛应该就是这次对战的最大看点。当然对战期间的每一个细节变化都会成为整个比赛精彩片段。然而 AlphaGo 应该算是当前最强大的围棋人工智能机器。它凝聚了围棋的诸多算法,这次比赛柯洁能否找到它的致命死穴,其实这也是很多棋谜们心头的一根弦。 这次围棋峰会预计有 5 场比赛,其中最受瞩目的柯洁大战 AlphaGo,想必额外的人机配对赛和一场团队人机赛也会受到棋谜们的关注,不过棋谜们的内心应该还是更热衷于柯洁与AlphaGo的对决。在对战过程里柯洁是否还是按照惯例开局?以及如何布局?中局如何展开搏杀?还是柯洁只能如同李世石一般被AlphaGo牵着鼻子走。 在整个比赛过程中,柯洁与AlphaGo那个会更加被动,柯洁是否能想出出奇制胜的妙招,这些都是很多人都极为关切的话题。其实对于行内人应该会更加注重与观看比赛的每一个细节,而作为行外人士可能就是会留意一下比赛结果罢了。 现在比赛即将拉开帷幕,柯洁与AlphaGo将有三场比赛。柯洁能赢AlphaGo几局,一局,两局还是三局。或是打平,又或是完全惨败。我想这一切都有可能。不管你此时看好谁,我想还是等比赛开始时,让我们一起来鉴证这场人机大战的生死博决吧。
下一篇:没有了