机器学习数据预处理

Coder沙拉 2021-07-12

855

本文主要针对机器学习数据预处理进行简单介绍，包括常见数据类型以及常见数据预处理方式。

数据类型

表格数据

行为对象（元组、数据点、实例、样本均为相同概念），列为属性

属性

维、特征、变量、属性均为相同概念

数据类型

名义型
布尔型
等级型
数值型

数据的基本统计信息

统计中心趋势和离散程度：

均值：算数均值、加权均值
中位数（median）
众数（mode）
对于适度倾斜的单峰曲线，有经验公式：mean - mode = 3 * (mean - median)

分位数（Quantile）：x为数据集中的数，如果数据集中百分之K的数都不大于x，则称x为数据集的K分位数
上四分位数（Q3-75% quentile）
下四分位数（Q1-25%quentile）
中间分位数（IQR ）: IQR = Q3 - Q1, 也叫四分位距，用来衡量数据的分散情况。
方差（Variance）和标准差（Standard deviation）

盒图（箱线图）

距离度量

相似性，值域通常为[0,1]

名义型数据类型 & 布尔型数据类型

简单匹配（相同属性个数m，属性数量p，则距离为p-m/p）
转换为多个布尔属性，如下图所示

q是两者都有的一个属性，r是i有但是j没有的属性。

数值型数据类型

明可夫斯基距离：

前者是绝对距离，后者是方向差异。

前者体现维度数值大小的差异，后者体现类似于用户兴趣之类的差异。

等级型数值类型

混合型数据类型

将上述的类型求得的距离进行加权求和。

数据预处理的方式

数据清洗
数据集成
数据转换
数据归约

数据标准化

算法要求或者数据量纲不同：

Z-score标准化：接近（0，1）分布，适用于最值未知
0-1标准化：线性变换到[0,1]区间
小数定标标准化：

logistic标准化

当数据集中的分布在零点附近时，通过sigmoid函数可以将其均匀地散开。

方法比较

数据离散化

有些数据挖掘算法，特别是某些分类算法（如朴素贝叶斯），要求数据是分类属性形式（类别型属性）这样常常需要将连续属性变换成分类属性（离散化，Discretization）。另外，如果一个分类属性（或特征）具有大量不同值，或者某些之出现不频繁，则对于某些数据挖掘任务，通过合并某些值减少类别的数目可能是有益的。

本质：将连续型数据分段

无监督离散化

等距离散化
等频离散化
基于聚类分析的离散化（先聚类，再合并（自底向上）或分裂（自顶向下），达到预定的簇个数）
基于正态3σ的离散化

有监督离散化

基于信息增益的离散化（自顶向下）
基于卡方的离散化（自底向上，根据不同区间的类分布相似度进行聚合，相似度越高，卡方值越小）

小结

缺失值处理

缺失机制

完全随机缺失
随机缺失（与完全变量有关）
完全非随机缺失（与不完全变量自身有关）

处理方法

删除法

删除样本
删除变量（缺得多，对研究目标影响不大）
降低权重（不影响数据结构）

基于填补的方法

单一填补（均值、k-means、热平台、冷平台）
随即填补（在均值填补的基础上加随机项）

基于模型的方法

建模预测

异常值检测

基于统计的方法

上下α分位数之外的值

基于距离的算法

局部异常因子算法（LOF算法）

友情链接

作者个人博客: https://woody5962.github.io/

本文转载自Coder沙拉公众号，欢迎关注：

机器学习

最后修改时间：2022-10-26 12:22:50

文章转载自Coder沙拉，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

机器学习数据预处理

数据类型

表格数据

属性

数据类型

数据的基本统计信息

距离度量

名义型数据类型 & 布尔型数据类型

数值型数据类型

等级型数值类型

混合型数据类型

数据预处理的方式

数据标准化

方法比较

数据离散化

无监督离散化

有监督离散化

小结

缺失值处理

缺失机制

处理方法

删除法

基于填补的方法

基于模型的方法

异常值检测

基于统计的方法

基于距离的算法

友情链接

评论