最后更新于
最后更新于
使用数据集中的一个特征, 在训练集上训练模型, 在验证集(dev)上预测结果, 并使用metric指标进行评价. 例如对于分类任务, 使用AUC指标, 并设定一个阈值, 如果在验证集上的AUC值小于0.5, 则认为这个特征是一个噪音比较大的特征, 应当筛除.
一般使用基于决策树的ensemble模型作为这个基础的评价模型, 如lgb.
首先使用全部的特征进行训练得到模型, 然后在验证集上, 对某一个特征在样本层面上进行shuffle, 如果shuffle之后的"验证集"的预测准确性没有发生大的变化, 甚至变的更好了, 那么这个特征的意义不大, 应当剔除.
参考: