什么是探索性数据分析?EDA类型及示例 | 南京·未迟 | Google 出海体验中心

什么是探索性数据分析?EDA类型及示例

探索性数据分析 (EDA) 是一种您可以轻松利用来总结数据关键属性的方法。

探索性数据分析

此外,它是一种使用图形和图表从原始数据中提取答案的方法。该策略使用数据可视化设计和统计数据来提取对数据的洞察力。

可视化或图表通过支持数据支持的决策为持续改进提供洞察力,在商业世界中发挥着关键作用。

要从原始数据中提取可操作的见解,您需要易于解释的图表和图形。此外,您需要最好的工具来帮助您访问现成的图表。

谷歌表格可以说是最常用的数据可视化工具之一,因为它已经存在多年并且为许多人所熟悉。

但是,要使用现成且具有视觉吸引力的图表和图形进行全面的探索性数据分析 (EDA) ,您必须超越电子表格应用程序进行思考。

为什么?

谷歌表格产生非常基本的图表,需要额外的时间和精力来编辑

但是,您不必取消 Google 表格。您可以通过安装第三方应用程序(附加组件)将其转换为可靠的数据可视化工具。

在本博客中,您将学习:

  • 如何利用探索性数据分析 (EDA) 创建引人入胜的数据故事?
  • 与 EDA 和统计相关的最佳实践。
  • 此外,您还将了解用于进行全面探索性数据分析 (EDA) 的最佳工具。

什么是探索性数据分析 (EDA)?

根据 John Tukey(在 1970 年代创造了探索性数据分析一词的人)的说法,它是分析数据和解释结果的程序和技术。

此外,它还涉及规划、工具和统计数据,可用于从原始数据中提取见解。

您可以利用 EDA 探索在假设检验之外可以揭示哪些数据。此外,此策略可以帮助您确定您正在考虑进行分析的统计技术是否合适。

为什么探索性数据分析 (EDA) 在您的业务中很重要?

直到最近,理解庞大而复杂的原始数据对我们来说还是太艰巨了。

但是探索性数据分析等方法正越来越多地帮助我们以前所未有的规模处理庞大的数据集。

EDA 方法的主要优势在于它允许您在假设检验之外调查原始数据。更重要的是,您可以利用统计模型(例如平均值、标准差、中位数和四分位数等)来探索您的数据以获得深入的答案。

请记住,数据库中的数据中隐藏着大量信息,等待被发现。即使是从不同来源收集的历史数据在可视化时也更有意义。

在当今世界,我们每天都会产生大量数据。当充分利用数据时,数据可以帮助您的企业进行个性化的营销传播。

探索性数据分析 (EDA) 的用途是什么?

您可以利用 EDA 进行以下操作:

  • 您可以使用探索性数据分析来检查缺失数据和其他错误。
  • 深入了解数据集及其底层结构。
  • 验证与假设检验相关的假设。
  • 检查原始数据中的异常值、模式和趋势。
  • 查找参数估计值及其相关的置信区间或误差范围。

 

探索性数据分析 (EDA) 的类型有哪些?

探索性数据分析有两个关键变体,即:

单变量分析和多变量分析。它们可以是图形的,也可以是非图形的,因此它们整体变成了四种类型。

  • 单变量分析

这是最简单的 EDA 形式,它需要分析与维度变量相关的单个数据点以获得洞察力。单变量分析的主要目的是描述数据并找出其中存在的模式。

在此分析中使用的数据可视化设计示例是简单条形图、饼图、径向图等。

探索性数据分析

可视化来源:ChartExpo

  • 多元分析

多变量分析需要分析多个变量以获得洞察力。用于此分析的最佳图表包括散点图、雷达图和双轴线和条形图。

查看图表的图表,如下所示:

散点图可视化:

探索性数据分析

可视化来源:ChartExpo

雷达图可视化:

探索性数据分析

可视化来源:ChartExpo

双轴线和条形图:

探索性数据分析

可视化来源:ChartExpo

如何为探索性数据分析制作现成且富有洞察力的图表?

谷歌表格是专业人士和企业主流行的首选数据可视化工具之一。

但是,它的库中缺少用于 EDA 方法的现成图表。换句话说,您必须投入额外的时间和精力来编辑图表以与您的数据故事保持一致。

是的,你没有看错。

您不必浪费时间编辑图表。

您可以选择使用第三方插件来增强您的 Google 表格,以访问现成的和 EDA 友好的图表。

我们建议您在 Google 表格中下载并安装一个名为 ChartExpo 的插件。

那么什么是 ChartExpo?

ChartExpo 是一个超级用户友好的插件,您可以将其安装在您的 Google 表格中,以便为您的探索性数据分析 (EDA)访问即用型且具有视觉吸引力的可视化。

此外,探索性数据分析推荐工具还有 50 多个其他现成的高级图表可帮助您取得成功。

探索性数据分析探索性数据分析

如何在 Google 表格中安装 ChartExpo?

您可以从此处直接在 Google 表格中安装 ChartExpo 扩展。

安装后,您可以在顶部菜单扩展的 Google 表格应用程序中找到它,然后找到 ChartExpo,然后单击打开。

探索性数据分析

打开后,您将看到下面的屏幕,您可以单击“创建新图表”。

探索性数据分析

您将通过 ChartExpo 找到可用图表的列表。

探索性数据分析

您可以选择任何您想要的图表并开始可视化您的数据并构建您自己的数据故事。

在下一节中,我们将介绍探索性数据分析示例,以帮助您开始使用易于遵循的方法。

探索性数据分析示例

在本节中,我们将介绍两种主要类型的探索性数据分析,即:单变量分析和多变量分析您还将学习如何利用 ChartExpo 生成与主要 EDA 类型相关的最合适的图表。

如何使用 ChartExpo for EDA 制作不同的图表?

  • 雷达图

在这个例子中,我们将使用雷达图来可视化下面的表格数据:

产品 几个月 订单数
面霜 80
面霜 二月 99
面霜 三月 93
面霜 四月 80
面霜 可能 70
面霜 六月 65
面霜 七月 85
面霜 八月 90
面霜 九月 80
面霜 十月 75
面霜 十一月 65
面霜 十二月 80
美白霜 100
美白霜 二月 60
美白霜 三月 95
美白霜 四月 75
美白霜 可能 100
美白霜 六月 60
美白霜 七月 95
美白霜 八月 75
美白霜 九月 109
美白霜 十月 80
美白霜 十一月 109
美白霜 十二月 75
美容霜 50
美容霜 二月 55
美容霜 三月 51
美容霜 四月 40
美容霜 可能 45
美容霜 六月 30
美容霜 七月 39
美容霜 八月 45
美容霜 九月 56
美容霜 十月 39
美容霜 十一月 48
美容霜 十二月 44
  • 将粘贴数据复制到 Google 表格中,开始使用探索性数据分析图表。
  • 在搜索工具栏上输入“雷达图

探索性数据分析

  • 选择包含数据的工作表。
  • 填写您的指标和维度。
  • 在我们的示例中,要填写的关键指标是订单数量。相反,在维度部分填写以下变量:产品和月份。

探索性数据分析

  • 单击“创建图表”按钮,使用雷达图完成数据可视化。

探索性数据分析

见解

  • 表现最好的产品是美白霜,因为它的最佳月份超过了面部和美容产品。
  • 表现最差的产品是美容霜。
  • 在 1 月、3 月、5 月、7 月和 11 月,面霜的表现优于亮肤霜。

提示

帕累托图

在此示例中,我们将使用 Pareto 图来可视化下表。

产品 销售量
胭脂 1579
睫毛膏 1962
口红 3654
基础 2578
粉末 4942
眉笔 5561
眼影 2961
指甲油 4831
唇彩 8961
  • 传输数据(上图)以开始使用 Pareto 图。
  • 在搜索工具栏上输入“帕累托图”

探索性数据分析

  • 填写您的指标和维度。在我们的示例中,要填写的关键指标是相反,在维度部分填写以下变量:产品。

探索性数据分析

  • 单击“创建图表”按钮完成简单的过程。

探索性数据分析

见解

  • 唇彩、眉笔、散粉、指甲油和口红是推动该品牌 80% 销售额的 20% 产品。
  • 唇彩一手就占了累计销售额的24%。
  • 眉笔占总销售额的 39%。

在本节中,我们将使用分组柱形图(一种探索性数据分析友好的可视化)来分析下面的数据集。

让我们潜入水中。

网络销售 亲自销售 电话销售
一月 1036 345 691
二月 456 263 526
行进 741 400 666
四月 561 913 211
可能 361 864 464
六月 801 210 425
七月 342 278 786
八月 456 1357 304
九月 1674 581 550
十月 647 245 144
十一月 298 567 201
十二月 457 421 222
  • 传输数据(上图)以开始使用分组柱形图。
  • 搜索工具栏上键入“分组柱形图” 。

探索性数据分析

  • 填写您的指标和维度。在我们的示例中,要填写的关键指标是:互联网销售、面对面销售和电话销售。相反,在维度部分填写以下变量:

探索性数据分析

  • 单击“创建图表”按钮完成简单的过程

探索性数据分析

见解

  • 表现最好的月份是 4 月,当月销售额超过其他月份。
  • 10 月份,手机销售仍然最差。
  • 互联网销售在 6 月份录得全年最佳表现。

探索性数据分析探索性数据分析

双轴线和条形图

我们将使用双轴线和条形图(探索性数据分析示例之一)可视化下面的数据集。

四分位数 销售量 生长
Q1-19 7000 4.2
Q2-19 7606 7.6
Q3-19 7895 3.8
Q4-19 8242 4.4
Q1-20 8327 0.7
Q2-20 8768 5.3
Q3-20 9337 6.5
Q4-20 9589 2.7
  • 将上面的表格导出到 Google Sheets 以获得双轴线和条形图。
  • 在“搜索”工具栏上键入“双轴线和条形图

探索性数据分析

  • 填写您的指标和维度。
  • 在我们的示例中,要填写的关键指标是销售额和增长。相反,在维度部分填写以下变量:

探索性数据分析

  • 单击创建图表按钮以完成简单的过程。

探索性数据分析

见解

  • 表现最好的季度是 2019 年第二季度,因为增长超过了销售额。
  • 另一方面,表现最差的时期是 2020 年第一季度。

探索性数据分析的优势

  • EDA 方法很灵活,可以随着数据分析的进行而适应变化。
  • 此外,它还可以为您的分析和讲故事任务提供坚实的基础。

探索性数据分析 (EDA) 的应用

  • 您可以使用探索性方法来衡量集中趋势,它可以为您提供单变量和多变量变量的概览。

集中趋势是平均值、中位数和众数的度量。

探索性数据分析探索性数据分析

常见问题解答:

什么是探索性数据分析?

探索性数据分析是一种统计方法,可用于调查原始数据的模式、趋势和异常情况。它涉及计划、工具和统计数据,您可以使用这些数据从原始数据中提取见解。您可以利用 EDA 探索在假设检验之外可以揭示哪些数据。

探索性数据分析有什么用?

探索性数据分析 (EDA) 是一种分析数据集以总结其主要特征的方法,通常使用可视化设计,例如表格、图表和图形。您可以使用该方法来衡量集中趋势(平均值、中位数、众数和范围)。

EDA的目的是什么?

EDA 的主要目标是帮助您挖掘数据集中隐藏的洞察力。您可以利用该方法检查丢失的数据和其他错误。此外,您可以使用该方法来深入了解您的数据集及其底层结构。

探索性数据分析的两个目标是什么?

探索性数据分析 (EDA) 有两个主要目标,即:

  • 检查可能扭曲关键见解的缺失变量和其他错误。
  • 获取隐藏的洞察力,例如原始数据中的趋势、异常值和模式。

此外,EDA 很灵活,可以根据需要适应变化。

包起来

探索性数据分析 (EDA) 是一种基于统计的方法,用于分析数据和解释结果。此外,它还涉及规划、工具和统计数据,可用于从原始数据中提取见解。

探索性数据分析有两个关键变体,即:

  • 单变量分析
  • 多元分析

可用于可视化不同数据的专家推荐图表包括帕累托图和雷达图、散点图以及双轴条形图和折线图。

使用 EDA 从您的原始数据中提取见解绝不应该是压倒性的或复杂的,尤其是当您的主要工具是 Google 表格时。

为什么?

Google 表格没有为 EDA 加载现成的图表您必须投入额外的时间和精力来处理电子表格应用程序生成的图表。

我们建议您在 Google 表格中安装第三方应用程序,例如 ChartExpo,以访问现成的、视觉上吸引人的和 EDA 推荐的图表,例如 Radar 和 Pareto Graphs。

ChartExpo 是一个附加组件,您可以轻松下载并安装到您的 Google 表格中。

此外,它还有 50 多个其他高级且视觉效果惊人的图表,以确保您成功地讲述数据故事。与其他工具不同,您不需要编程或编码技能即可使用 ChartExpo 可视化您的数据。

Scroll to Top

联系我们

=