数据讲故事是结合来自不同来源的复杂数据,以简洁、可视化和分析的形式呈现和传达各种业务见解的过程。目标是通过以有意义且可操作的方式呈现数据来帮助企业做出明智的决策。

为什么它在当今数据驱动的世界中很重要?

这是一项重要的软技能,因为在当今世界我们处理的大量数据中,很容易迷失方向并且无法充分利用现有数据。需要简明地提供数据分析和结果向非技术业务利益相关者提供任何可行的见解。

如何使用 SQL 来讲述故事?

SQL或结构化查询语言可用于存储或处理大量信息。它是数据分析师工具箱中应该包含的主要工具。 SQL 可以通过多种方式使用来对数据进行各种操作以发现模式,趋势和见解。

讲述数据故事的主要步骤是什么?

了解业务问题

分析师必须全面了解需求、业务问题和影响。例如,在零售行业,零售商面临的一个关键问题是库存萎缩,这是零售业对库存损失的术语。如果分析师必须向领导层提出有关缩减的见解,他们必须首先了解什么是缩减以及它如何影响公司的财务状况。

使用 SQL 进行数据剖析、分析和模式发现

下一步是了解各种数据源。例如,在零售收缩的情况下,分析师将首先检查数据仓库中的零售商店库存数据。然后,他们将详细了解数据(识别表的主键并检查空值)并将事实与维度结合起来构建基础级语义层。鉴于可用数据量巨大,SQL 可用于检测模式和趋势。然后,分析师将寻找收缩率较高的产品,并按利润率对它们进行排序,并仅筛选出前 20%(作为基准水平估计)。在高利润和高损耗的产品中,产品特定的因素,例如产品类别(面包店、农产品等),可以帮助制作引人注目的叙述,并在确定如何减少损耗方面发挥作用。

  • 如何使用 SQL 起草引人入胜的叙述? 
    • SUM、AVERAGE、COUNT、MIN 和 MAX 等各种聚合函数可用于更好地定义指标。
    • JOIN 条件(例如内部联接(仅返回两个表中都存在的记录))性能非常好,也有助于一次仅返回几条记录。
    • SQL 中的 CTE 或通用表表达式,这是一个强大的工具,还可以帮助清理数据并创建性能更高的语义层。
    • WHERE 条件等过滤器可以帮助将数据范围缩小到少数特定情况,从而更快地检索数据。

数据可视化和呈现

 在 SQL 数据分析之后,分析师必须以简洁且易于理解的方式呈现数据。选择正确的图表来表示数据至关重要,因为它可以增强收集的见解的可见性。它使得向利益相关者展示见解变得高效、简洁且可操作。为了更好地选择正确的图形,分析师应该通过图形工具或库选择正确的可视化工具。

  • 流行的选项包括:
    • Excel 或 Google 表格 – 数据可以导出到 Excel 或可以使用 Excel/Google 表格上的内置数据透视选项创建 Google 表格和图表。
    • R/Python 库 – 数据可以导入到 Python 笔记本(例如 Jupyter),并且可以创建图表通过可视化库(例如 matplotlib、seaborn、ggplot 和plotly)以编程方式进行。
    • Tableau/ PowerBI – 数据可以导入到可视化工具,例如 Power BI 和 Tableau,用于创建交互式仪表板。
  • 讲述数据故事时的道德考虑。
    • 数据应该是调查结果应该准确、真实。还应该考虑谨慎处理 PII(个人身份信息)。

数据讲故事的趋势是什么?

随着生成式人工智能的兴起,大多数数据故事讲述都可以通过 人工智能和机器学习。随着物联网的发展,现在很多数据都是实时的,因此需要更多实时的数据故事。

结论

讲述数据故事是一项重要的软技能,对于任何有抱负的分析师来说,它都是对 SQL 数据分析的补充。随着越来越多的数据被创建,需要通过 SQL 讲述更多的数据故事,因为为了做出更明智的数据驱动决策,引人注目的叙述是实现数据货币化的真正价值的关键。

Comments are closed.