探索性数据分析(Exploratory Data Analysis), 即数据探索, 简称EDA, 往往贯穿整个比赛过程. 比赛中的EDA, 集中在两个过程:
赛前对于数据的探索
模型预测结果的分析
赛前数据的探索可以帮助我们更好地了解数据的性质以及干净程度, 训练集与测试集的分布差异, 了解业务特征; 而模型的分析部分, 可以帮助我们了解模型哪些样本做的好, 哪些数据做的不好, 通过此类反馈, 对错误的数据展开研究, 挖掘我们所遗漏的部分, 进一步提升模型的预测性能.
常用的EDA方法在此不做记录. 这里会记录一些重要, 新颖, 容易遗忘的方法.
特征
对于类别型特征, 或者是拆散成几个布尔型特征的类型特征, 作为一个变量, 需要查看其分布
缺失值在数据中的表现形式, 有些数据集中的特征, 是以特殊的值(如-999这种)来表示缺失的, 而不是简单的为NaN, 需要人工去进行判断
区分异常值的类型. 在数据支持的情况下, 不同类型的异常值可能有不同的意义, 特别注意区分记录异常和机器本身异常的情况
分类任务
在可视化分析特征时, 对于不同的label, 使用不同的颜色将样本绘制出来, 或者对于不同的label分析特征变量的分布情况, 方便观察, 也能够找到特征与预测结果的相关性
也可以对特征和lable联合作图来实现
最后更新于