不以人类为师的阿尔法狗，为人类与人工智能对话提供“窗口”--新•资讯 -- 新科技

不以人类为师的阿尔法狗，为人类与人工智能对话提供“窗口”

发表时间：2017年10月19日 18:34 来源：澎湃新闻责任编辑：编辑：麒麟

1997年国际象棋神话卡斯帕罗夫输给计算机后，围棋成为人类的最后尊严。在大多数人看来，计算机想要在围棋领域打败人类，至少需要十年，甚至更长的时间。然而，AlphaGo的出现，直接击碎了这一想法。

2016年，谷歌旗下的DeepMind团队发布AlphaGo，并在以4:1的成绩击败了世界围棋冠军、韩国棋手李世石，震撼全球。战胜李世石的这版AlphaGo，参考学习了大量的人类专业棋手的棋谱。此后，AlphaGo又进化出了AlphaGo Master版本，并以3：0战胜了当今世界围棋第一人、中国棋手洁。“功成名就”后，Deepmind公司宣布AlphaGo退役，不再与人类下棋。不过，故事并未结束。退出人类棋坛、无敌寂寞的AlphaGo开始了闭关学习，进行“左右手互博”，从而实现“挑战自我”、“战胜自我”。2017年10月18日，神秘面纱揭开：DeepMind推出了最新版本，也是迄今为止最强版本——AlphaGo Zero。

在DeepMind的最新论文中，AlphaGo Zero利用了强化学习的方法，在没有人类指导的情况下，只用3天时间进行学习，就打败了战胜过李世石的那版AlphaGo，比分是100：0。

2016年3月9日，韩国首尔，DeepMInd开发的智能系统AlphaGo（阿尔法围棋）和韩国职业围棋选手李世石的第一场比赛正式结束。视觉中国资料图

在《自然》杂志上为DeepMind论文撰写的评论中，密歇根大学计算机科学和工程学院教授Satinder Singh写道，这是强化学习转化为应用领域里取得的最大进步之一。

那么AlphaGo Zero是如何实现这种飞跃的？前文提到，AlphaGo Zero采用的是人工神经网络。这种网络可以计算出下一步走棋的可能性，估算出下棋选手赢的概率。随后根据计算，AlphaGo Zero会选择最大概率赢的一步去下。整个训练过程中，并没有人类参与，全程是AlphaGo Zero自我学习，自我对弈。

在训练过程中，AlphaGo Zero每下一步需要思考的时间是0.4秒。但正是通过对围棋游戏的模拟和训练，神经网络变得越来越好。值得一提的是，AlphaGo Zero相比之前的版本，仅使用了单一的神经网络。

新版本的AlphaGo究竟有多厉害？打败李世石的AlphaGo用了3000万盘比赛作为训练数据，AlphaGo Zero用了490万盘比赛数据。经过3天的训练，AlphaGo Zero就以100：0的比分赢下了李世石版AlphaGo，并且只用了1台机器和4个TPU（谷歌专为加速深层神经网络运算能力而研发的芯片）。而李世石版AlphaGo则用了48个TPU。

这一切的意义在哪里？AlphaGo的诞生惊艳了世人，现在AlphaGo Zero又将机器能做到的极限往后推了几个量级。Satinder Singh认为，AlphaGo和AlphaGo Zero在一年多时间里取得的进步已经证明，基于强化学习的人工智能比基于人类知识经验的智能表现地更好。实际上，AlphaGo Zero将来很有可能会帮助人类棋手提高棋艺，并启发他们对围棋的理解。还有一点也是毋庸置疑的，那就是AlphaGo的成功带来了全球媒体对于人工智能的关注，也让围棋变成流行与美并存的游戏。

美国围棋协会的Andy Okun和Andrew Jackson也为此次的论文在《自然》杂志上撰写了评论，他们认为，围棋人工智能的出现，重启了我们究竟对围棋这项游戏了解多少这个问题。通常一个世纪才会出现一位传奇的围棋棋手，他能改变人类对围棋的理解。而当AlphaGo打败李世石，Master以60：0的成绩横扫各国顶尖棋手，并以3:0赢下洁后，关于人工智能给围棋带来的启示一直不绝于耳。

[1] [2]

·谷歌想依靠这个芯片提升Pixel 2的拍照能力

·谷歌想要给你的计算机带来个性何时能实现呢？

·微软携手亚马逊联手与苹果和谷歌在AI助手市场进行竞争

·美媒揭秘谷歌"登月项目"工厂X：项目失败有奖金

·谷歌承诺提供10亿美元资金帮助美国培训高科技人才

·iPhone 7/Plus回购价格对比：谷歌比苹果更慷慨

·亚马逊微软合作开发AI 谷歌太强再次被排除在外

·从急不可耐的谷歌硬件，看中美如何破局AI商业化

·亚马逊Alexa高管：愿意与苹果谷歌合作开发语音助手

·对话谷歌大中华区总裁：中国人工智能有得天独厚优势