暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Kaggle知识点:seaborn数值分布分析

Coggle数据科学 2022-02-16
955

displot
:分布图

displot
用于在 FacetGrid 上绘制分布图的图形级界面,使用kind参数可以选择使用的方法:

- histplot()(kind="hist") # 默认
- kdeplot()(kind="kde"
- ecdfplot()(kind="ecdf"

复制

使用displot
绘制分布直方图:

import seaborn as sns
penguins = sns.load_dataset("penguins")
sns.displot(data=penguins, x="flipper_length_mm")

复制

使用displot
绘制密度直方图:

sns.displot(data=penguins, x="flipper_length_mm", kind="kde")

复制

使用displot
绘制累计分布图:

sns.displot(data=penguins, x="flipper_length_mm", kind="ecdf")

复制

histplot
:分布直方图

histplot
直方图是一种经典的可视化工具,它通过计算离散区间内的观测数量来表示一个或多个变量的分布。

histplot
可以对每个 bin 内计算的统计量进行归一化以估计频率、密度或概率质量,并且可以添加使用核密度估计获得的平滑曲线,

绘制两个变量的分布直方图:

sns.histplot(data=penguins, x="flipper_length_mm", hue="species")

复制

kdeplot
:密度直方图

kdeplot
核密度估计是一种可视化数据集中观测值分布的方法,类似于直方图。kdeplot
使用一维或多维的连续概率密度曲线表示数据。

相对于直方图,kdeplot
可以更具可解释性的图,特别是在绘制多个分布的情况下。

sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="stack")

复制

ecdfplot
:累计分布图

ecdfplot
展示一列取值空间中数值的取值比例或计数。与kdeplot
histplot
相比,ecdfplot
可以观测到每个取值。通过累计分布图可以观察到取值空间的分布情况,也可以看出是否存在缺失值。

绘制单个变量的累计分布图:

sns.ecdfplot(data=penguins, x="flipper_length_mm")

复制

rugplot
:边缘分布图

通过沿x轴和y轴绘制刻度来绘制二维变量的边缘分布。

绘制散点图和边缘分布图:

sns.scatterplot(data=tips, x="total_bill", y="tip")
sns.rugplot(data=tips, x="total_bill", y="tip", height=-.02, clip_on=False)

复制

boxplot
:箱线图

boxplot
显示数据集的四分位数,而且根据分位点确定为极值和异常点。

ax = sns.boxplot(x="day", y="total_bill", data=tips)

复制

学习交流群已成立
学习推荐系统,算法竞赛,组队参赛
添加👇微信拉你进群
加入了之前的社群不需要重复添加~

文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论