机器学习笔记:GBDT的并行化训练
@作者: 机器学习算法 @迪吉老农
最近使用 GBDT 时,想通过分布式进行训练,尝试了一些框架,但原理不太了解。有些东西与同事讨论后,也还不甚明了,于是专心看了一下文档,在此记录一下。
1、分布式原理
常用分布式训练方式,应该是参数服务器。worker把sample的统计结果推送到单台参数服务器机器上,参数服务器汇总后,再推送到worker端。有点类似于单reducer的方式。
相比于参数服务器的中心化方案,这里提到的都是 去中心化 方案。
@作者: 机器学习算法 @迪吉老农
最近使用 GBDT 时,想通过分布式进行训练,尝试了一些框架,但原理不太了解。有些东西与同事讨论后,也还不甚明了,于是专心看了一下文档,在此记录一下。
常用分布式训练方式,应该是参数服务器。worker把sample的统计结果推送到单台参数服务器机器上,参数服务器汇总后,再推送到worker端。有点类似于单reducer的方式。
相比于参数服务器的中心化方案,这里提到的都是 去中心化 方案。