首页 > 科幻 > 从信息学霸到神级科学家 > 第74章 训练开始
下载

请安装我们的客户端

终生免费,永无广告!

第74章 训练开始(1/2)

目录
好书推荐:

看众人还没完全搞明白,钱峰顿时有点急了,他手都快指到屏幕里去了:“时间差分法啊,这是一个隐式的时间差分啊。”

“你们看这个评论家网络,是用每局的胜负来训练的,而它的输出却连到了行动者网络的每一个时间步上,用来训练行动者网络。”

“这就像是行动者的每一步棋,都有一个老师告诉他这一步让他的胜率是提高了还是下降了,以及具体是提高下降了多少。”

“这样的话,再也不需要通过蒙特卡洛法,下完一整局棋再收集一次很高方差的数据了,而是每一步棋,都能对围棋程序做一次迭代训练。”

“最外层的循环是每下一盘棋训练一次评论家,而内层循环是每一步棋,都根据评论家的指导,训练一次行动者。”

其他教授顿时恍然大悟,这个想法...似乎真的可行!

惊讶之余又有些感慨,江铭真的是不断创造奇迹的信息学新星。

竟然真的在众目睽睽之下,基于策略梯度算法之上又有了新的突破。

“后生可畏,后生可畏啊!”,文森特感叹:“华国金陵大学真的是捡到宝了。”

“只是今天上午听瑞秋的报告,提到了两个模型对抗训练的方式,突然产生的灵感...”,江铭不好意思地解释道。

然而他的话,几位教授只当耳旁风,听听就罢了,根本不会信。

这个算法,和上午瑞秋的生成式对抗网络完全不同,那个算法虽然分成两个模型,但是还是各自训练的。

而江铭,则是将其中一个评论家网络的输出结果,作为梯度,反向传播在行动网络的每一个时间步下,其构思之精巧简直叹为观止。

“开始训练吧,我已经迫不及待地想看结果了。你的计算资源够用吗,不如直接用我们实验室的资源。”

文森特不愧是麻省的高级研究员,做事雷厉风行,立马掏出一张纸条,写上了几行数字。

“这是我们实验室服务器的ip地址和端口号,这个是一个临时的用户权限密码,你直接连上去用。如果可以的话,争取这两天就把模型训练出来,测试一下。”

江铭接过纸条,礼貌感谢了一下文森特教授。

他还真有点缺计算资源,昨天的训练让他意识到,围棋程序的训练的确需要大量计算资源。

尤其他这次设计的算法框架,江铭直接命名为行动者-评论家框架,虽然提高了训练效率,但是对计算资源的需求可一点不少。

甚至由于两个网络中的数值传递,涉及了更多的地址移动操作,对cpu的性能要求更高。

“围棋么...”,钱峰思索片刻,道:“最近樱花国好像就有一个围棋的世界大赛吧,我去联系一下,也许能安排一个人机大战也说不定。”

他作为nips的主编,还是在社会各界人脉广泛,自作主张地帮江铭的围棋程序找起了对手。

几个信息学顶尖教授的能量可想而知,很快便安排好了这一切。

他们简直比江铭还要对这个算法有信心,都迫不及待地想在这次的开会的短短一周内就能看到结果。

江铭无奈,一番操作连上了麻省的计算服务器,开始了训练...

...

接下的半天里,江铭穿梭于主会场和几个研讨会分会场。

时间表上但凡他感兴趣的工作,都会去会场听一听报告,许多研究员的创新点子让江铭感到很受启发。

当然,即使是听报告,江铭也会每隔一个小时就打开笔记本,查看一下围棋程序的训练情况。

在他加入了全新的算法框架之后,仅仅训练了三个小时,就看到指标有了变化!

虽然由于使用的是自我对弈方式的原因,胜率仍然在50%上下浮动,但是他注意到评论家网络的方差正在逐渐降低,而行动者网络的动作分布也开始区域集中。

这是一个非常好的趋势!

评论家网络的方差变低,意味着它对于每一步棋的判断正变得越来越准,而行动者网络动作分布的集中,则说明这个模型在下棋时不再是随机乱下了。

它现在至少是在几个可能的,比较好的落子位置中纠结。

江铭调出程序自我对弈的棋谱,仔细检查。

他按照落子顺序一点点看过去,逐渐露出便秘般的表情。

这根本评估不出来程序的下棋水平好吗!

他的围棋水平连半吊子都算不上,实在是看不大懂,能知道一个基本规则就已经是尽力了。

不行,还是得找个专业的人来看看,江铭瞬间想到了柯凡,也不知道他这个时候有没有空。

正好今天的会议也告一段落了,江铭拿着电脑便跑回了东京站酒店。

酒店门口摆放着几幅宣传海报,是有关本次的应氏杯国际围棋锦标赛的,甚至每个参赛选手,都有着等身立绘以及一些樱花国媒体给选手起的中二名字。

江铭扫了一眼

本章未完,点击下一页继续阅读。

不想错过《从信息学霸到神级科学家》更新?安装看书屋专用APP,作者更新立即推送!终生免费,永无广告!可换源阅读!

放弃 立即下载
书页 目录
阅读推荐: 宿命之环 帝国之刃 今天开始当城主 诸天窃贼 长生修仙:我能用族人的气血加点 大奥术师她今天赚钱了吗 这本小说很健康 我在星际炼丹封神 人道大圣 斗破:家祖玄帝萧玄
返回顶部