随机种子
在模型集成时使用k-fold技巧是比赛常用的方法.
分类问题在数据集的划分时, 往往在每个fold中, 不同类别的比例还是保持与总体的类别比例相同. 但是在回归问题中, 数据集的划分就没了依据, 不考虑其他情况(样本值分布情况, 特征分布情况), 只能随机地划分数据. 这样划分之后产生的结果, 训练得到的模型具有很大的随机性.
因此在回归问题中使用k-fold技巧来进行stacking以提升成绩时, 需要使用多个随机种子, 然后对这多个随机种子的结果去平均, 相当于又多了一层SEED的stacking.
损失函数
损失函数对回归结果的影响相当之大. 对于不同的回归问题和对应的数据, 最好使用更贴近需求的损失函数, 这就要求对损失函数有一定的理解, 而且有比赛经验的积累.
当然, 在比赛的开始阶段, 为了快速实现自己的baseline, 可以将回归问题常用的损失函数都使用起来, 分别训练模型, 然后将这些模型进行stacking. 这里即使选择相同的模型, 损失函数的差异也会让模型表现出完全不同的性质.
然后可以从这些损失函数中, 得到稳定表现最好的损失函数, 分析其原因, 反馈与损失函数的构造和特征工程.
最后更新于