EDA(数据探索)

探索性数据分析(Exploratory Data Analysis), 即数据探索, 简称EDA, 往往贯穿整个比赛过程. 比赛中的EDA, 集中在两个过程:

  • 赛前对于数据的探索

  • 模型预测结果的分析

赛前数据的探索可以帮助我们更好地了解数据的性质以及干净程度, 训练集与测试集的分布差异, 了解业务特征; 而模型的分析部分, 可以帮助我们了解模型哪些样本做的好, 哪些数据做的不好, 通过此类反馈, 对错误的数据展开研究, 挖掘我们所遗漏的部分, 进一步提升模型的预测性能.

常用的EDA方法在此不做记录. 这里会记录一些重要, 新颖, 容易遗忘的方法.

特征

  • 对于类别型特征, 或者是拆散成几个布尔型特征的类型特征, 作为一个变量, 需要查看其分布

  • 缺失值在数据中的表现形式, 有些数据集中的特征, 是以特殊的值(如-999这种)来表示缺失的, 而不是简单的为NaN, 需要人工去进行判断

  • 区分异常值的类型. 在数据支持的情况下, 不同类型的异常值可能有不同的意义, 特别注意区分记录异常机器本身异常的情况

分类任务

  • 在可视化分析特征时, 对于不同的label, 使用不同的颜色将样本绘制出来, 或者对于不同的label分析特征变量的分布情况, 方便观察, 也能够找到特征与预测结果的相关性

    • 也可以对特征和lable联合作图来实现

最后更新于

这有帮助吗?