围棋智能机器人 阿尔法狗打败围棋冠军是哪一年

AlphaGo是人工智能研究的一座里程碑 。图片来源:Unsplash
2016年,谷歌围棋人工智能“阿尔法狗”(AlphaGo)以4比1的成绩战胜世界围棋冠军李世石,这场人机大战成为人工智能史上一座新的里程碑 。近日,美国计算机学会(ACM)宣布,将2019年ACM计算奖授予AlphaGo研发团队领导者David Silver,以表彰他为计算机游戏表现带来的突破性进展 。
“在专用人工智能向通用人工智能发展过程中,AlphaGo是一个重要阶段 。”北京大学教授、北京智源人工智能研究院院长黄铁军告诉《中国科学报》 。
从深蓝到“阿尔法狗”
人机对弈,AlphaGo并不是首例 。
就计算机的“棋艺”而言,十几年前IBM的“深蓝”与AlphaGo相比,也不能同日而语 。尽管如此,1997年“深蓝”击败了当时的国际象棋冠军卡斯帕罗夫,震惊了当时的学术界 。
“深蓝的算法核心是暴力搜索 。”中国科学院自动化研究所研究员赵冬斌告诉《中国科学报》,其原理是生成尽可能多的走法,执行尽可能深的搜索 。采用的alpha-beta剪枝算法,可以快速削减搜索的路径,并不断对局面进行评估,找到最优走法 。
换言之,它每走一步,几乎都是在遍历后续所有可能的情况下作出的决策,因此,很多人认为这是计算机的胜利,而不是人工智能的胜利 。
而AlphaGo之所以能达到人类顶尖棋手的棋艺水平,依靠的是“自学成才” 。
“围棋是一项变数极多、充满不确定性的竞技活动 。下棋的可能性都是一个几乎无法穷尽的量级 。棋手起手就有361种落子选择 。理论上,如果不考虑限制条件,棋盘状态共有3的361次方种,下法共有361阶乘种选择,这个数字大约是10的768次方,几乎是无穷大 。要知道人类已知宇宙中的原子数量,也不过是10的80次方 。”清华大学计算机科学与技术系教授孙富春告诉《中国科学报》,AlphaGo Zero在某种程度上部分突破了人类认知学习的能力,原理上可以习得包括围棋在内的其他观测信息是完备的、状态动作空间是可数的各种人类技艺,甚至展现出“直觉”判断能力 。
除了与人类越来越接近的“头脑”之外,AlphaGo的学习速度之快也远远超出人们的想象,其进步的空间似乎难以估量 。
“感觉就像一个有血有肉的人在下棋一样,该弃的地方也会弃,该退出的地方也会退出,非常均衡的一个棋风,真是看不出出自程序之手 。”柯洁曾在接受媒体采访时表示,AlphaGo有好几次落子极其“非常规”,许多专业棋手都表示“看不懂” 。
2017年,AlphaGo进一步升级 。在《自然》发表的一篇研究论文中,Silver 团队报告了新版程序 AlphaGo Zero:从空白状态学起,在不利用人类任何围棋比赛数据作为训练数据的条件下,它能够迅速通过2900万次自我博弈、自学围棋,并以 89比11 的战绩击败“前辈” 。
“AlphaGo从惊人的海量博弈数据中习得能力 。如果AlphaGo有内心世界,看到人类落完一步棋,他或许会微微一笑,心想‘这招我昨天刚下过’ 。”浙江大学人工智能研究所所长吴飞调侃道 。
与此同时,AlphaGo Zero在国际象棋、围棋等游戏中都取得了超人的表现,展现了前所未有的游戏方法的普适性 。
“阿尔法狗”的“三驾马车”
自AlphaGo打败李世石后,人们惊奇地从公开的程序中发现:打败这些围棋高手的不仅仅是计算机强大的计算能力,更依赖其精妙的算法 。
吴飞解释说,AlphaGo的算法主要依靠强化学习、深度学习和蒙特卡洛树搜索“三驾马车”并驾齐驱,而这也是其中的核心技术 。
在南京大学计算机科学与技术系教授王崇骏看来,强化学习让AlphaGo有了自学能力,深度学习让AlphaGo通过数据驱动的机器学习有了估值量化能力,蒙特卡洛树则是一个连接所有技术和动作的框架 。