如何评价 DeepMind 发表在 Nature 上的 AlphaGo Zero

真锈菜刀 2021-09-19 09:05 439 次浏览赞 61

最新问答

挪威森林北辰星
AlphaGo Zero是谷歌下属公司Deepmind的新版程序。
从空白状态学起，在无任何人类输入的条件下，AlphaGo Zero能够迅速自学围棋，并以100:0的战绩击败“前辈”。
发展历史
编辑
2017年10月19日凌晨，在国际学术期刊《自然》（Nature）上发表的一篇研究论文中，谷歌下属公司Deepmind报告新版程序AlphaGo Zero：从空白状态学起，在无任何人类输入的条件下，它能够迅速自学围棋，并以100:0的战绩击败“前辈”。Deepmind的论文一发表，TPU的销量就可能要大增了。其100:0战绩有“造”真嫌疑。[1] 它经过3天的训练便以100：0的战绩击败了他的AlphoGo Lee，经过40天的训练便击败了它的另一个AlphoGo Master[1]

工作原理
编辑
抛弃人类经验”和“自我训练”并非AlphaGo Zero最大的亮点，其关键在于采用了新的reinforcement learning（强化学习的算法），并给该算法带了新的发展。[1]

战绩
编辑
AlphaGo Zero仅拥有4个TPU，零人类经验，其自我训练的时间仅为3天，自我对弈的棋局数量为490万盘。但它以100:0的战绩击败前辈。[1]
浏览 174赞 109时间 2023-01-19

相关问答

如何评价 DeepMind 发表在 Nature 上的 AlphaGo Zero

最新问答

热门问答

热门标签

选自鲁广斌

杨秋林的一