暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

使用 Einblick 进行探索性数据分析

原创 樱桃小丸子 2022-10-21
539

介绍

探索性数据分析(EDA)检查数据并使用数字摘要和可视化识别变量之间的潜在关系。我们使用汇总统计数据和图形工具来了解我们的数据并了解我们在 EDA 期间可以从中推断出什么。

为了做 EDA,我们采用了各种技术,包括 python 和 pandas 分析。但是,要有效地使用这些工具中的任何一个,一个人必须熟悉编码,而学习这些工具需要花费大量的时间和精力。

如果我们无需太多编码就可以通过拖放进行可视化怎么办?如果我们无需编写任何代码就可以进行汇总统计,该有多酷?Einblick 可以轻松完成所有这些事情,甚至更多。

在本文中,我们将讨论 Einblick 并使用 Einblick 对tips 数据集进行探索性数据分析。

什么是Einblick?

Einblick 是一种可用于探索数据集、创建机器学习模型和进行预测的工具。它也可以用来部署数据应用,而且最好的是这个工具可以和很多团队成员实时协作使用。

我们可以使用这个工具来清理我们的数据并探索和可视化数据。我们还可以使用它来操作我们的数据并创建聚合表。Einblick 还提供了 AutoML 解决方案,可用于创建机器学习模型并进行预测。我们可以对数据进行编码、提取文本特征并执行聚类分析。所有这些都可以在没有任何代码的情况下完成。我们需要做的就是拖放适当的元素。

但这并不意味着它完全没有代码。它还提供了创建 python 单元的选项,以便我们可以进行任何复杂的数据操作。我们将在后续部分中了解如何进行可视化并探索数据集。我们将在此演示中使用提示数据集。

如何使用 Einblick 进行 EDA?

现在我们已经看到了 Einblick,让我们开始研究这个。首先,访问官方网站并注册一个免费帐户。您将看到如下所示的仪表板。

单击屏幕上可见的“新建画布”按钮。它将创建一个新的画布,您可以在其中执行所有操作。它看起来像下面的那个。

 

我们可以看到两个选项,“Dataframes”和“Operations”。数据框用于添加来自适当数据连接器的数据框。操作用于在数据集上执行不同的功能。我们将在此演示中使用提示数据集。

单击 Dataframes 选项旁边的加号并上传数据集。上传完成后,将数据集拖到画布上,即屏幕右侧空白处,然后单击“表格”选项以查看数据框。我们可以看到显示所有数据的数据框以及行数和列数。

现在让我们使用“profiler”选项来描述数据集。在“操作”菜单下,单击“核心”选项。您可以看到“Profiler”选项。将其拖放到画布中,即屏幕右侧。将其放入画布后,拖动数据框上可见的下箭头标记并将其附加到“Profiler”图块上的加号。之后,Einblick 在后台工作并描述数据集中的所有列,如下所示。

正如我们所看到的,所有列都与它们的空值和唯一值一起被描述。对于数值变量,还描述了平均值、最大值和最小值等汇总统计数据。所有这一切都无需编写任何代码。我们刚刚上传了一个数据集,拖放了适当的图块,然后得到了这个。现在让我们绘制一些图表并查看数据集中的趋势。

首先,我们将绘制属性“total_bill”和“tips”之间的散点图。为此,在“操作”菜单下,单击“可视化”菜单并将“图表”选项拖到画布中。现在像以前一样将数据框连接到此图表图块。现在我们需要选择我们想要的绘图类型。由于它是散点图,请单击图表图块上的图表类型并选择散点图。此外,选择 x 和 y 轴。Einblick 会自动为我们绘制图表。它看起来像下面的那个。

我们可以看到 total_bill 和 tip 之间的散点图。现在让我们看一些单变量图。首先,我们将绘制属性“sex”的计数图。就像我们在上一步中所做的那样,将“图表”选项拖到画布中。现在,选择垂直条形图。选择“性别”作为 x 轴并聚合作为“计数”,因为我们希望看到计数图。现在选择 y 轴作为“性别”,这样我们将得到如下所示的计数图。

如上图所示,男性高于女性。同样,让我们看看属性 'smoker' 和 'day' 的计数图。像我们之前一样创建一个“图表”选项,然后选择“垂直条”类型的图表。选择 x 轴作为“吸烟者”,选择聚合作为“计数”。选择 y 轴作为“吸烟者”。Einblick 将创建 'smoker' 属性的计数图。

同样,在画布中创建另一个“图表”图块并重复我们在前一个中所做的所有步骤。但现在选择“day”作为 x 轴,“count”作为聚合“day”作为 y 轴。我们将看到计数图。结果将如下所示。

我们可以看到不吸烟的人比吸烟的人多,周六的人数最多,这意味着当天访问的顾客最多。

如果您观察到,我们从未使用过任何代码。它只是像我们在 Tableau 或 PowerBI 中那样拖放。但这对于可视化数据和快速获得洞察力要简单得多。到目前为止,我们已经以简单的方式描述了数据,创建了一个双变量图,并创建了三个单变量图,如上所示。

结论

EDA 是机器学习模型构建中的一项基本任务。它让我们快速了解我们的数据是什么。因此,拥有能够简单地为我们提供结果的好工具是必要的。Einblick 完美地完成了这项工作,没有任何麻烦。恩布里克是

  • 使用简单
  • 拒绝低代码工具
  • 提供对数据集执行的广泛操作
  • 提供用户之间的实时协作

为您的下一个 EDA 项目尝试这个简单的工具,让每个人都大吃一惊。如果您有任何问题,请随时在下面发表评论。

原文标题:Exploratory Data Analysis Using Einblick

原文作者:UPPU RAJESH KUMAR


原文链接:
https://www.analyticsvidhya.com/blog/2022/10/exploratory-data-analysis-using-einblick/

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论