请安装我们的客户端
终生免费,永无广告!
第73章 废话少说,放码过来(1/2)
瑞秋和两位教授面面相觑。
这怎么就明白了?他们刚刚有说了什么特别关键的话吗?
“你明白什么了?知道怎么解决训练不收敛的问题了吗?”,瑞秋显得极为激动,一脸兴奋地问道。
此时顿悟因子的效果还在,江铭没再说话,仿佛是怕效果消失了似的。
他飞快从包中掏出笔记本电脑,把还在进行的训练停掉了,指尖飞舞地在先前的代码上修改起来。
“来不及解释了,你们直接看我代码吧。”,他说道。
其他几人点点头,很自然地围到了江铭左右,耐心等待起来。
信息学界有一句朗朗上口的名言:
“talk is cheap. show me the code.”
用中国话来说就是,废话少说,放码过来!
很多惊艳才绝的想法,用语言解释起来非常费劲,反而不如直接看代码逻辑呢。
江铭神情无比专注,不断敲击着键盘,如同一个专业的作曲家,一行行代码像音符一样被他轻松创作出来。
这情景很快便吸引了一些路过研究员的注意。
在午休时间,还是会议这种场合,竟能如此投入地工作,让人不禁暗暗佩服。
不过,大多人还不至于围过来观摩江铭写代码。
这种重量级的会议场合,正是和人社交,发展学术人脉的好时机,浪费在一时的工作上,断然不是好的选择。
...
钱峰与文森特正边讨论着问题边结伴而行,正巧路过江铭这里,顿时被江铭认真改代码的样子吸引了。
两人顿时噤声,悄悄走到了后边。
钱峰悄悄拍了拍面前正围观着的瑞秋,小声道:“他这是在做什么呢?”
瑞秋转过头,惊讶地发现自己身后竟然站着两位大牛教授,甚至都不知道他们看了多久。
她小声地把江铭正在做围棋程序的事跟两位教授讲了一遍。
围棋程序?
两位教授皱眉思考了半响。
“这的确是个难题。”,钱峰感叹:“我这段时间仔细研究了策略梯度算法,其中很大的一个难题就是探索效率。就像围棋这样的复杂问题,就是下一百万盘,也仅仅只探索了冰山一角。”
文森特也点头赞成:“是啊,我也不认为以当下我们的信息学技术,可以解决围棋策略的问题,我们的所设计的神经网络,相比于人脑而言,还是过于简单了,仅仅是一个数学拟合罢了。”
两人虽然都不相信这个问题能被解决,但还是对江铭正在编写的代码充满了好奇。
年轻人有这样的科研热情,自然是极好的,他们谁都不想去泼这个冷水。况且,观看江铭写代码的过程都足够赏心悦目了。
他们索性不走了,站在后面默默看着江铭继续他的代码修改。
江铭原本的围棋程序,主要包含三部分,被他分门别类地存放在三个文件中。
首先是train文件,存放着训练的主循环逻辑。
然后是enviro文件,写着有关围棋的规则,以及智能体和环境交互的逻辑。这个文件可以想象成一个虚拟的棋盘,而智能体就是在这其中自我对弈自我训练的,
最后一个是policy文件,包含了智能体本身的神经网络结构,以及梯度反向传播的逻辑等等与智能体更新进化有关的内容。
此时,江铭已经把policy文件中的代码几乎删了个精光,只留下一个神经网络结构的代码。
这操作令一众教授都更加迷惑不解起来。
策略梯度算法,最关键的部分就是有关智能体的代码,从policy这个文件名就能看出,其实这部分代码才是真正的核心。
“这是要彻底放弃策略梯度了吗?”,文森特喃喃道:“嘶,也对,这个问题的确没法用这种方式来解...难道是他又想到了全新的方法?”
“但是,为什么还要保留有关神经网络的代码呢?这个神经网络如果没有策略梯度算法,该拿什么来训练呢?”
还未等文森特思考出结果,江铭竟用鼠标框选出神经网络这段代码,在下面又复制出一个一模一样的网络结构。
“这难道是想要把黑棋与白旗分开来,单独训练出两个智能体吗?”,文森特惊讶出声:“可是这有什么用呢,按理说这样也不会提高训练效率啊,还是没有解决探索效率问题。”
“不对,他好像没有准备这样做。”,钱峰盯着江铭的屏幕看,表情忽然变得严肃。
只见江铭连按几下删除键,删掉了这个新神经网络的最后一层输出层,原本通过softmax函数输出动作分布的一层,在江铭的修改下变成了输出一个值。
这是在做什么?钱峰更疑惑了,做一个输出一个值的神经网络又能有什么用呢?
众教授也是越凑越近,如果不是怕遮挡了江铭的视线,简直都
本章未完,点击下一页继续阅读。
不想错过《从信息学霸到神级科学家》更新?安装看书屋专用APP,作者更新立即推送!终生免费,永无广告!可换源阅读!