围棋智能机器人 阿尔法狗打败围棋冠军是哪一年( 二 )


例如,在围棋博弈中,“局面判断”用于衡量某一局面的价值,越大的值表示对当前行动的选手越有利 。“最优策略”是通过在某局面下选择能带来最大价值的动作来获得 。
在AlphaGo的强化学习中,科学家使用策略函数和局面函数进行度量 。有了这两个估值函数,机器在搜索的时候尽量选择估值更大的行动,达到缩小思考范围的目的 。同时,即使在未达到终局的情况下,也可以依靠局面函数对当前局势优劣做判断 。
由于大部分博弈游戏状态空间巨大,严格计算评估函数无法实现 。利用深度学习和大量数据,AlphaGo可以自动找到特征,同时拟合出估值函数 。而蒙特卡洛树搜索是集以上技术于一身的搜索框架,通过反复模拟和采样对局过程来探索状态空间 。
“蒙特卡洛树搜索的特点是非常容易并行、可任何时候停止,其引入了随机性采样而减小估值错误带来的负面影响,并且可以在随机探索的过程中,结合强化学习,自学式地调整估值函数,让算法越来越聪明 。”王崇骏告诉《中国科学报》 。
分析AlphaGo成功的原因,赵冬斌认为,深度神经网络在其中起到了重要作用 。“传统的基于规则的计算机围棋方法只能识别固定的棋路,这类似于背棋谱 。基于深度学习的AlphaGo自动提取棋谱局面特征并将其有效地组合在一起, 极大增强了对棋谱的学习能力 。”
其次,局面的准确评估也是AlphaGo成功的关键 。价值网络和快速走子网络在局面评估时互为补充,能够较好地应对对手下一步棋的不确定性,对得到更加精确的评估结果至关重要 。
此外,硬件配置的大幅提升也功不可没 。AlphaGo采用了异步多线程搜索,用CPU执行模拟过程,用GPU计算策略网络和价值网络 。最终单机版本AlphaGo使用了48个CPU和8个GPU,分布式版本的AlphaGo则采用了1202个CPU和176个GPU 。正是这些计算机硬件的支持,才得以让AlphaGo发挥出强大的实力 。
人工智能发展的一小步
在AlphaGo诞生后的几年中,其背后的神经网络、深度学习、蒙特卡洛树搜索法等技术,开始从“下棋”这样的场景,延伸到更多具有商业化价值的场景中 。
在中国,这些技术催生了游戏领域人工智能的研究和发展 。腾讯旗下游戏王者荣耀的“觉悟”、微软亚洲研究院的麻将“Suphx”以及启元的星际争霸“指挥官”等虚拟“玩家”一时间如雨后春笋般涌现 。
这些技术还推动了其他领域包括机器人、智能驾驶、智能制造、电力优化、量化金融、智慧医疗等纵深应用领域的技术进步,包括且不局限于提高英国电网的效率、降低谷歌数据中心的能耗,以及为欧洲航天局设计太空探测器的轨道等 。
不过,AlphaGo的胜绩是否代表着人工智能的胜利?答案是否定的 。
“AlphaGo的胜利,只能说明这个算法在围棋等比赛中战胜了人类 。但是,就人工智能的发展而言,几乎所有人都认同目前人工智能发展水平还处在初级阶段 。”王崇骏说 。
他表示,目前人工智能算法大多依赖高质量的海量数据,需要的功率也远高于人类大脑的能耗水平,同时也很难应用于多种场景 。“一个明显的例子就是,AlphaGo的实现方法在明确定义的环境下效果明显,而在开放环境下,结果往往不尽如人意 。比如AlphaGo下围棋很厉害,但面对图像识别问题肯定就不行了 。”
赵冬斌表示,在围棋、麻将和其他具有类似评级制度的游戏等测试平台,或能客观地衡量一些算法的人工智能水平,但是在某些难以量化的领域,很难对算法的智能水平给出客观评价 。“比如,自动驾驶有5级划分,但是不够明确 。驾驶涉及技术链条较长,包括定位、感知、预测、决策、规划和控制等 。若想全面衡量驾驶人工智能的水平,还需要更细致的分类工作 。”