1997年,国际象棋大师加里·卡斯帕罗夫败给了电脑“深蓝”;2016年,谷歌人工智能AlphaGo又战胜了韩国棋手李世石。这标志着人工智能终于征服了它在棋类比赛中最后的弱项——围棋,谷歌公司的DeepMind团队比预期提前了整整10年达到了既定目标。对计算机来说,围棋并不是因为其规则比国际象棋复杂而难以征服——与此完全相反,围棋规则更简单,它其实只有一种棋子,对弈的双方轮流把黑色和白色的棋子放到一个19x19的正方形棋盘中,落下的棋子就不能再移动了,只会在被对方棋子包围时被提走,到了棋局结束时,占据棋盘面积较多的一方为胜者。围棋的规则如此简单,但对于计算机来说却又异常复杂,原因在于围棋的步数非常多,而且每一步的可能下法也非常多。以国际象棋作对比,国际象棋每一步平均约有35种不同的可能走法,一般情况下,多数棋局会在80步之内结束。围棋棋盘共有361个落子点,双方交替落子,整个棋局的总排列组合数共有约10701种可能性,这远远超过了宇宙中的原子总数——10^{80}!对于结构简单的棋类游戏,计算机程序开发人员可以使用所谓的“暴力”方法,再辅以一些技巧,来寻找对弈策略,也就是对余下可能出现的所有盘面都进行尝试并给予评价,从而找出最优的走法。这种对整棵博弈树进行穷举搜索的策略对计算能力要求很高,对围棋或者象棋程序来说是非常困难的,尤其是围棋,从技术上来讲目前不可能做到。“蒙特卡罗树搜索”是一种基于蒙特卡罗算法的启发式搜索策略,能够根据对搜索空间的随机抽样来扩大搜索树,从而分析围棋这类游戏中每一步棋应该怎么走才能够创造最好机会。举例来说,假如筐里有100个苹果,每次闭着眼拿出1个,最终要挑出最大的1个。于是先随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大。但除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的方法,就属于蒙特卡罗算法。虽然“蒙特卡罗树搜索”在此前一些弈棋程序中也有采用,在相对较小的棋盘中也能很好地发挥作用,但在正规的全尺寸棋盘上,这种方法仍然存在相当大的缺陷,因为涉及的搜索树还是太大了。AlphaGo人工智能程序中最新颖的技术当属它获取知识的方式——深度学习。AlphaGo借助两个深度卷积神经网络(价值网络和策略网络)自主地进行新知识的学习。深度卷积神经网络使用很多层的神经元,将其堆叠在一起,用于生成图片逐渐抽象的、局部的特征。对图像分析得越细,利用的神经网络层就越多。AlphaGo 也采取了类似的架构,将围棋棋盘上的盘面视为19×19的图片输入,然后通过卷积层来表征盘面。这样,两个深度卷积神经网络中的价值网络用于评估盘面,策略网络用于采样动作。在深度学习的第一阶段——策略网络的有监督学习(即从______I____中学习)阶段,拥有13层神经网络的AlphaGo借助围棋数据库KGS中存储的3000万份对弈棋谱进行初步学习。这3000万份棋谱样本可以用a、b进行统计。a是一个二维棋局,把a输入到一个卷积神经网络进行分类,分类的目标就是落子向量A。通过不断的训练,尽可能让计算机得到的向量A接近人类高手的落子结果b,这样就形成了一个模拟人类下围棋的神经网络,然后得出一个下棋函数F go()。当盘面走到任何一种情形的时候,AlphaGo都可以通过调用函数F go()计算的结果来得到最佳的落子结果b可能的概率分布,并依据这个概率来挑选下一步的动作。在第二阶段——策略网络的强化学习(即从____II______ 中学习)阶段,AlphaGo开始结合蒙特卡罗树搜索,不再机械地调用函数库,而类似于一种人类进化的过程:AlphaGo会和自己的老版本对弈。即,先使用F_go(1)和F_go(1)对弈,得到了一定量的新棋谱,将这些新棋谱加入到训练集当中,训练出新的F_go(2),再使用F_go(2)和F_go(1)对弈,以此类推,这样就可以得到胜率更高的F_go(n)。这样,AlphaGo就可以不断改善它在第一阶段学到的知识。在第三阶段——价值网络的强化学习阶段,AlphaGo可以根据之前获得的学习经验得出估值函数v(s),用于预测策略网络自我对抗时棋盘盘面s的结果。最后,则是将F_go()、v(s)以及蒙特卡罗树搜索三者相互配合,使用F_go()作为初始分开局,每局选择分数最高的方案落子,同时调用v(s)在比赛中做出正确的判断。这就是AlphaGo给围棋带来的新搜索算法。它创新性地将蒙特卡罗模拟和价值网络、策略网络结合起来训练深度神经网络。这样价值网络和策略网络相当于AlphaGo的两个大脑,策略网络负责在当前局面下判断“最好的”下一步,可以理解为落子选择器;价值网络负责评估整体盘面的优劣,淘汰掉不值得深入计算的走法,协助前者提高运算效率,可以理解为棋局评估器。通过两个“大脑”各自选择的平均值,AlphaGo最终决定怎样落子胜算最大。通过这种搜索算法,AlphaGo和其他围棋程序比赛的胜率达到了99.8%。AlphaGo的飞快成长是任何一个围棋世界冠军都无法企及的。随着计算机性能的不断增强,遍历蒙特卡罗搜索树将进一步提高命中概率。大量的计算机专家,配合大量的世界围棋高手,在算法上不断革新,再配合不断成长的超级计算能力,不断地从失败走向成功,最终打造出围棋人工智能。在AlphaGo击败李世石后,欧洲围棋冠军樊麾说了这么一句话:“这是一个团队的集体智慧用科技的方式战胜了人类数千年的经验积累。”人和机器其实没有站在对立面上,“是人类战胜了人类”。根据文章,回答下列问题:比较分析AlphaGo新算法与蒙特卡罗树搜素的不同之处。要求:概括准确,层次清晰,文字简洁,不超过250字。

1997年,国际象棋大师加里·卡斯帕罗夫败给了电脑“深蓝”;2016年,谷歌人工智能AlphaGo又战胜了韩国棋手李世石。这标志着人工智能终于征服了它在棋类比赛中最后的弱项——围棋,谷歌公司的DeepMind团队比预期提前了整整10年达到了既定目标。
对计算机来说,围棋并不是因为其规则比国际象棋复杂而难以征服——与此完全相反,围棋规则更简单,它其实只有一种棋子,对弈的双方轮流把黑色和白色的棋子放到一个19x19的正方形棋盘中,落下的棋子就不能再移动了,只会在被对方棋子包围时被提走,到了棋局结束时,占据棋盘面积较多的一方为胜者。
围棋的规则如此简单,但对于计算机来说却又异常复杂,原因在于围棋的步数非常多,而且每一步的可能下法也非常多。以国际象棋作对比,国际象棋每一步平均约有35种不同的可能走法,一般情况下,多数棋局会在80步之内结束。围棋棋盘共有361个落子点,双方交替落子,整个棋局的总排列组合数共有约10701种可能性,这远远超过了宇宙中的原子总数——10^{80}!
对于结构简单的棋类游戏,计算机程序开发人员可以使用所谓的“暴力”方法,再辅以一些技巧,来寻找对弈策略,也就是对余下可能出现的所有盘面都进行尝试并给予评价,从而找出最优的走法。这种对整棵博弈树进行穷举搜索的策略对计算能力要求很高,对围棋或者象棋程序来说是非常困难的,尤其是围棋,从技术上来讲目前不可能做到。
“蒙特卡罗树搜索”是一种基于蒙特卡罗算法的启发式搜索策略,能够根据对搜索空间的随机抽样来扩大搜索树,从而分析围棋这类游戏中每一步棋应该怎么走才能够创造最好机会。举例来说,假如筐里有100个苹果,每次闭着眼拿出1个,最终要挑出最大的1个。于是先随机拿1个,再随机拿1个跟它比,留下大的,再随机拿1个……每拿一次,留下的苹果都至少不比上次的小。拿的次数越多,挑出的苹果就越大。但除非拿100次,否则无法肯定挑出了最大的。这个挑苹果的方法,就属于蒙特卡罗算法。虽然“蒙特卡罗树搜索”在此前一些弈棋程序中也有采用,在相对较小的棋盘中也能很好地发挥作用,但在正规的全尺寸棋盘上,这种方法仍然存在相当大的缺陷,因为涉及的搜索树还是太大了。
AlphaGo人工智能程序中最新颖的技术当属它获取知识的方式——深度学习。AlphaGo借助两个深度卷积神经网络(价值网络和策略网络)自主地进行新知识的学习。深度卷积神经网络使用很多层的神经元,将其堆叠在一起,用于生成图片逐渐抽象的、局部的特征。对图像分析得越细,利用的神经网络层就越多。AlphaGo 也采取了类似的架构,将围棋棋盘上的盘面视为19×19的图片输入,然后通过卷积层来表征盘面。这样,两个深度卷积神经网络中的价值网络用于评估盘面,策略网络用于采样动作。
在深度学习的第一阶段——策略网络的有监督学习(即从______I____中学习)阶段,拥有13层神经网络的AlphaGo借助围棋数据库KGS中存储的3000万份对弈棋谱进行初步学习。这3000万份棋谱样本可以用a、b进行统计。a是一个二维棋局,把a输入到一个卷积神经网络进行分类,分类的目标就是落子向量A。通过不断的训练,尽可能让计算机得到的向量A接近人类高手的落子结果b,这样就形成了一个模拟人类下围棋的神经网络,然后得出一个下棋函数F go()。当盘面走到任何一种情形的时候,AlphaGo都可以通过调用函数F go()计算的结果来得到最佳的落子结果b可能的概率分布,并依据这个概率来挑选下一步的动作。在第二阶段——策略网络的强化学习(即从____II______ 中学习)阶段,AlphaGo开始结合蒙特卡罗树搜索,不再机械地调用函数库,而类似于一种人类进化的过程:AlphaGo会和自己的老版本对弈。即,先使用F_go(1)和F_go(1)对弈,得到了一定量的新棋谱,将这些新棋谱加入到训练集当中,训练出新的F_go(2),再使用F_go(2)和F_go(1)对弈,以此类推,这样就可以得到胜率更高的F_go(n)。这样,AlphaGo就可以不断改善它在第一阶段学到的知识。在第三阶段——价值网络的强化学习阶段,AlphaGo可以根据之前获得的学习经验得出估值函数v(s),用于预测策略网络自我对抗时棋盘盘面s的结果。最后,则是将F_go()、v(s)以及蒙特卡罗树搜索三者相互配合,使用F_go()作为初始分开局,每局选择分数最高的方案落子,同时调用v(s)在比赛中做出正确的判断。
这就是AlphaGo给围棋带来的新搜索算法。它创新性地将蒙特卡罗模拟和价值网络、策略网络结合起来训练深度神经网络。这样价值网络和策略网络相当于AlphaGo的两个大脑,策略网络负责在当前局面下判断“最好的”下一步,可以理解为落子选择器;价值网络负责评估整体盘面的优劣,淘汰掉不值得深入计算的走法,协助前者提高运算效率,可以理解为棋局评估器。通过两个“大脑”各自选择的平均值,AlphaGo最终决定怎样落子胜算最大。通过这种搜索算法,AlphaGo和其他围棋程序比赛的胜率达到了99.8%。
AlphaGo的飞快成长是任何一个围棋世界冠军都无法企及的。随着计算机性能的不断增强,遍历蒙特卡罗搜索树将进一步提高命中概率。大量的计算机专家,配合大量的世界围棋高手,在算法上不断革新,再配合不断成长的超级计算能力,不断地从失败走向成功,最终打造出围棋人工智能。在AlphaGo击败李世石后,欧洲围棋冠军樊麾说了这么一句话:“这是一个团队的集体智慧用科技的方式战胜了人类数千年的经验积累。”人和机器其实没有站在对立面上,“是人类战胜了人类”。
根据文章,回答下列问题:

比较分析AlphaGo新算法与蒙特卡罗树搜素的不同之处。
要求:概括准确,层次清晰,文字简洁,不超过250字。


参考解析

解析:新算法和蒙特卡罗树搜索的不同之处:
1.核心算法不同:新算法创新性地将蒙特卡罗模拟和价值网络、策略网络结合起来,具备“两个大脑”,而蒙特卡罗树搜索是一种基于蒙特卡罗算法的启发式搜索策略,是单一神经网络。
学习方式不同:新算法深度学习分为三个阶段,即策略网络的监督学习,策略网络的强化学习,价值网络的强化学习。蒙特卡罗树搜索是启发式搜索,不涉及学习阶段。
应用范围不同:蒙特卡罗树搜索在正规的全尺寸棋盘上存在缺陷,而新算法的使用不存在棋盘尺寸限制问题。

相关考题:

IBM超级计算机“深蓝”,于()击败了世界大师加里·卡斯帕罗夫。 A.1996年B.1997年C.1998年D.1999年

AlphaGo是由谷歌(Google)旗下DeepMind公司杰米斯?哈撒比斯领衔的团队开发。其主要工作原理是()。 A、策略网络B、深度学习C、机器学习D、局面评估

IBM超级电脑程序“深蓝”,于()击败了国际象棋大师加里·卡斯帕罗夫。 A.1996年B.1997年C.1998年D.1999年

2016年DeepMind公司研发的AlphaGo击败了围棋大师李世石。AlphaGo使用的主要算法有()。 A.遗传算法B.深度学习C.模糊计算D.蒙特卡洛树搜索算法

2016年3月谷歌()在四场比赛中击败了国际围棋世界冠军李世石,引发了全世界的关注。 A、AlphaGoB、AlphaGoMasterC、AlphaZeroD、DeepMind

谷歌公司的AlphaGo机器人战胜了人类围棋世界冠军李世石,这表明了()。 A、人工智能已经可以完全代替人类,其智力已经远远超过人类B、人工智能在某方面已经超过人类,它开创性的围棋算法是取胜的关键C、人工智能只是钻了人类无法长时间集中精力的空子,从而取胜D、人工智能的胜利为人类敲响了警钟,将来人类或将无法控制人工智能

计算机“深蓝”与国际象棋大师卡斯帕罗夫对弈并胜出,属于计算机的( )应用领域。A.CATB.CADC.AID.CAM

1997年5月11日,美国纽约曼哈顿一幢高楼里正在进行一场被媒体称为“人机大战”的国际象棋比赛。对局的一方是1985年以来一直独霸棋坛的俄罗斯棋王卡斯帕罗夫,另一方是美国IBM公司推出的“天下第一”下棋机器——名为“深蓝”的超级计算机。尽管卡斯帕罗夫一开始就声称他是“为尊严而战”,但最后“深蓝”还是以3.5比2.5的总比分取胜。对此,世界舆论一片哗然。“人机大战”特别引人注目的原因不是( )。A. 人跟计算机进行国际象棋比赛尚属首次,所以引起媒体的关注B. 一方是俄罗斯棋王卡斯帕罗夫,一方是“天下第一”下棋机器“深蓝”C. 卡斯帕罗夫并非是为他个人而战,比赛涉及到人类的尊严问题D. “深蓝”最终以3.5比2.5的总比分取胜,导致世界舆论一片哗然

在2016年3月的人机大战中,可以学习并模仿人类下棋的人工智能围棋程序AlphaGo以4:1战胜了韩国棋手李世石,这也代表着人工智能发展到了新的阶段,人工智能的出现及其发展对马克思主义哲学的意义在于:A. 改变了人类对意识的能动活动活动B. 肯定了人工智能可以代替意识的能动活动C. 否定了物质对意识的决定作用D. 丰富了物质和意识相互关系的内容

1996年IBM超级计算机“深蓝”在()比赛中击败了世界大师卡斯帕罗夫。A、围棋B、益智抢答C、国际象棋D、棒球

1997年IBM公司生产的名为()计算机,在与人类的对弈中战胜了国际象棋大师——卡斯帕罗夫。A、IBM360B、银河C、深蓝D、iMac

2016年3月,人工智能程序()在韩国首尔以4:1的比分战胜的人类围棋冠军李世石。A、AlphaGoB、DeepMindC、DeepblueD、AlphaGo Zero

Alphago是第一个在()比赛中,战胜了世界冠军的人工智能。A、军棋B、围棋C、象棋D、飞行棋

战胜李世石的谷歌AlphaGo,是()的典型代表。A、低人工智能B、强人工智能C、超强人工智能D、弱人工智能

1997年"深蓝Ⅱ代"战胜国际象棋大师卡斯帕罗夫,说明将来电脑完全可以取代人脑。()

2016年3月在对弈中成功击败韩国棋手李世石的谷歌AlphaGo,其主要工作原理是()?A、模拟分析B、深度学习C、大数据分析D、浅度学习

1996年,国际象棋大师卡斯帕罗夫战胜了IBM公司的“深蓝”,1997年卡斯帕罗夫输给了经过改进的“深蓝”。这说明经过改进的“深蓝”比人更聪明,将来电脑完全可以取代人脑。

国际象棋大师卡斯帕罗夫与“深蓝”下棋,说明了计算机有()方面的应用领域。A、科学计算B、过程控制C、数据处理D、人工智能

()旗下人工智能公司DeepMInd开发的智能系统AlphaGo(阿尔法围棋)和韩国职业围棋选手李世石九段的第三局比赛于3月12日12时在首尔举行,经过4小时的对弈,李世石投子认输,AlphaGO再次胜出,3:0获得本次人机大战的最终胜利。A、谷歌B、百度C、腾讯D、微软

围棋人机大战,是人类与计算机之间的围棋比赛,特指2016年3月9日至15日在韩国首尔进行的围棋九段棋手()与人工智能围棋程序“阿尔法围棋”(AlphaGo)之间的五番棋比赛。A、李世石B、古力C、聂卫平D、谢军

判断题1997年"深蓝Ⅱ代"战胜国际象棋大师卡斯帕罗夫,说明将来电脑完全可以取代人脑。()A对B错

单选题1996年IBM超级计算机“深蓝”在()比赛中击败了世界大师卡斯帕罗夫。A围棋B益智抢答C国际象棋D棒球

单选题国际象棋大师卡斯帕罗夫与“深蓝”下棋,说明了计算机有()方面的应用领域。A科学计算B过程控制C数据处理D人工智能

单选题战胜李世石的谷歌AlphaGo,是()的典型代表。A低人工智能B强人工智能C超强人工智能D弱人工智能

判断题1996年,国际象棋大师卡斯帕罗夫战胜了IBM公司的“深蓝”,1997年卡斯帕罗夫输给了经过改进的“深蓝”。这说明经过改进的“深蓝”比人更聪明,将来电脑完全可以取代人脑。A对B错

单选题在2016年3月的人机大战中,可以学习并模仿人类下棋的人工智能围棋程序AphaGo以4:1战胜了韩国棋手李世石,这也代表着人工智能发展到了新的阶段,人工智能的出现及其发展对马克思主义哲学的意义在于( )。A改变了人类对意识的能动活动B肯定了人工智能可以代替意识的能动活动C否定了物质对意识的决定作用D丰富了物质和意识相互关系的内容

单选题()旗下人工智能公司DeepMInd开发的智能系统AlphaGo(阿尔法围棋)和韩国职业围棋选手李世石九段的第三局比赛于3月12日12时在首尔举行,经过4小时的对弈,李世石投子认输,AlphaGO再次胜出,3:0获得本次人机大战的最终胜利。A谷歌B百度C腾讯D微软

单选题围棋人机大战,是人类与计算机之间的围棋比赛,特指2016年3月9日至15日在韩国首尔进行的围棋九段棋手()与人工智能围棋程序“阿尔法围棋”(AlphaGo)之间的五番棋比赛。A李世石B古力C聂卫平D谢军