1.模型
(1)整体模型函数如下:
其中 k 表示树的数量,f 表示每棵树的预测函数;
(2)截取到第 t 棵树的模型函数表示如下:
2.训练
(1)每次训练一棵树,目标函数如下:
其中第一项是损失函数,第二项是防止过拟合;N表示样本数,T表示所有树的叶子数目,t 表示训练第 t 棵树,w 表示叶子的输出值;
(2)泰勒展开(二阶展开):
其中:
由于L为常数项,所以:
因此,该优化问题就是找出一颗树满足上述目标函数最小;
3.优化
(1)树的预测可以理解如下:1)将哪些样本分配到哪个叶子上;2)每个叶子的预测值;
(2)目标函数的改进:
其中:
表示第 i 个样本分配到第 j 个叶子上;
(3)为了优化上述式子,可以先求出w(二次求解):
因此目标函数可以化为:
PS:xgboost与gbdt的改进:由一阶展开改为二阶,加入过拟合控制;
参考:XGBOOST – A MACROSCOPIC ANATOMY
原文:http://blog.csdn.net/dream_catcher_10/article/details/51277138