大多数企业都了解存储数据的需要, 而现在大多数公司实际上是在某种程度上这样做的。然而, 许多企业仍未完全理解如何利用存储的数据来提取可操作的业务价值;他们也没有为实现这一目标而建立的自动化过程。

仅仅存储数据是不够的。如果不保留数据所传递的关键业务信息的延迟图片, 并且包含的内容意味着您的企业遗漏了可能对收入、利润、风险规避和问题产生重大影响的潜在洞察力。缓解/补救, 对适当/可取的内容进行表面处理, 产生最佳搜索结果, 发现并实现企业过程成本节约。

不知道您的企业数据会使您的业务面临严重的竞争风险

仅仅放置所需的数据摄取管道并存储正在收集的数据是不够的。为了能够让数据实际为您工作, 获得及时的洞察力, 并捕获其中包含的可操作值, 数据需要被分析并汇总成有用的清晰信号。只有这样, 它才能实际地报告、解释和被流程或企业规模的决策和监视系统所消耗。

如果您的数据只是在某些数据库或其他存储库中积累灰尘, 则它对您没有任何实际价值, 而且您的业务不会从它所包含的洞察力和信号中获益。如果你不开发和利用你所拥有的数据的洞察力, 那些竞争对手, 那些利用他们的数据的人可能开始优于和 outcompeting 你的业务。

为了使您的数据可操作, 它首先需要转化为相应的可消耗的和可量化的工件, 通常会被分解成诸如分数、分类器等之类的东西, 这些都是一些底层不断变化的数据。如果可以做到这一点, 那么高阶软件, 即它本身观察这些生成的量词和这些系统生成的任何变更事件都可以受益于有这些关键指标, 提供一个动态窗口的实际意义上的一些测量的方面。动态押后分类器, 域和企业级软件系统正在观察和摄取到他们的算法是代表和量化的提取值包含在一个更大的海量数据。

例如, 许多在线业务, 包括收集大量 web 使用数据的大型网站, 都无法成功利用此用法和用户信息来帮助通知和驱动他们的实时企业。虽然他们可以定期对数据进行即席分析查询, 并偶尔尝试量化和描述它, 但他们没有系统地处理他们正在收集的传入数据流, 以创建并维护最新的当前使用模式、潜在问题和问题的图片, 以及它们各自用户的喜好和品味。

数据的故事是动态的, 所以数据管道必须是动态的, 以及

在日常的商业活动中, 许多公司基本上是盲目的, 希望得到最好的。这是真的, 即使他们有一些课程纹理分析快照, 这虽然比没有洞察力, 但可能不会反映动态系统的实际状态。

相反, 通过将完全自动化的数据管线放到位, 它们可以根据实时量化的属性和标志进行更好的决策, 这些信息是通过实际实时活动不断更新的。

任何企业的真实图景都是动态的、不断变化的, 并应对外部和内部的变化。

现实是动态的… 而相应的数据摄取、处理和报告/信号管道也必须如此。

我们生活在一个大数据时代

随着数字数据存储单位成本的急剧下降, 并继续减少, 存储的数据量也相应地发生了爆炸。企业, 总的来说, 了解他们需要存储他们在日志, 文件服务器, 数据库等创建的数据。他们以创纪录的速度进行这项工作。越来越多的数据被摄取, 包括大量的遥测数据, 由海量设备产生。

当然, 这是一个很好的做法, 除非经常出于正当的理由, 如隐私问题, 例如, 给定数据体的某些部分或被摄取的数据流应该隐藏起来。即使在这种情况下, 数据也被存储在某处, 但不会从给定的系统或安全上下文中泄漏出来。

总的来说, 企业在收集和存储数据方面做得相当不错。事实上, 如此多的数据被储存起来, 一个新的软件学科, 称为 “大数据” 围绕着所需的专门技术, 以便能够有效地处理大量的记录。

但是, 将数据输入数据库 (或其他类型的结构化存储库 (如 NoSQL 解决方案之一) 就足够了吗?虽然收集数据比什么都好, 但以结构化的形式进行数据可以查询到它并使其可发现。

拥有数据与了解数据不一样

决策者需要问自己的问题是: 在何种程度上摄取的企业数据会被发现、浮出水面并以可操作的形式显示出来

许多数据从业者会认识到, 而且他们都非常熟悉有大量数据的问题, 理论上是可用的, 但实际上, 这对企业来说仍然是看不见的。巨大的桌子, 整列或一排的数据, 等等, 在大多数情况下, 可以保持不被探索, 存在于一个状态的地狱或一种 terra 线虫。在理论上, 特别是如果它是结构化数据, 它可以被查询和量化, 但是, 通常情况下, 没有运行或正在运行的查询这样做, 因此, 这些数据, 虽然它已被记录, 并可用, 不贡献任何可操作的洞察力和 succ企业的 ess。

决策者应该问自己, 如果他们能负担得起忽略他们的数据, 收集它, 但然后把它留在这个不被报道的状态。他们需要开始怀疑他们是否错过了关键信号或洞察力, 因为他们实际上只知道他们拥有的所有数据的相对稀薄的切片。

了解您的数据

虽然每个数据体都可以提出不同的挑战, 但一些基本方法似乎普遍适用。我在概述一些我觉得被广泛分享。这绝不是完整的, 也不是详尽无遗的, 其他人可能对这样的列表有不同的看法…..。事实上, 我很乐意听他们的!

浏览您拥有的数据

首先, 探索数据。进入并查看随机行和列。如果它是关系集, 或者例如, JSON 文档, 表示某种记录, 则探索任何架构、索引等。获取现有数据和数据结构的图片。

量化和分类

一旦您对希望量化的数据形成了良好的图片, 并确定了要跟踪的列、表等, 就可以开始计算如何将其作为分类的目的进行摄取, 例如, 运行查询。

通常你会试图分类的东西, 或反过来调整一些分类器的结果, 新的数据。许多技术和算法都存在, 每个问题都有自己的特定要求, 必须满足这些需求。

量化或分类数据的过程通常涉及以下步骤序列:

  1. 原始输入数据存在, 或不断被摄取或产生 (例如, 事件流或使用日志)。这些数据也与一些识别标准相关联, 因此它是粒度寻址的。换句话说, 只是说它是在数据库不会削减它。你需要能够解决什么是被测量, 到原子水平。这是不够的, 知道大约在哪里找到它。如果无法对数据项进行唯一的寻址, 则无法可靠地找到它, 因此它的值很小。
  2. 然后由一个或多个分析器处理此数据 (或流), 从中提取有用的和可操作的信息。例如, 它可以对某些项目进行分类或调整一些复合情绪。
  3. 新生成的或更典型的更新的计算工件 (例如, 可能是分数或分类) 在数据库或其他存储库系统中本身存储 (更新)。
  4. 然后, 生成的量词或分类器实体被连接到并暴露在感兴趣的决策、监视和报告系统中。

确定数据的含义

正是这些更高层次的推荐, 以及其他类型的决策支持系统, 如监测或报告和报警系统, 正在解释数据, 并对相关的信号作出反应, 以及其中包含的事件。

虽然决策和类似类型的软件通常会摄取原始数据, 但这些类型的分析引擎的性能可以通过将原始数据预处理到量化的集合或一组数据项的当前状态的定量汇总表示而得到很大改进。

例如, 对于某一组织感兴趣的某些跟踪维度的消费者情绪评分可能会从不同的列、表和其他来源组合而成, 并且可以表示一组相当大的粒状数据, 这些碎片已被被一些算法处理成卷成发布的情绪分类器。 这本身就像浮点数或枚举的桶标签一样简单。

保持所有工作

完成以下操作后:

  1. 探索, 并决定它是什么, 你想报告。

  2. 开发了必要的一组查询和软件, 将原始数据的混乱汇总成相应的代表性、量化值。

  3. 有线你的分析引擎, 监测和报警包摄取这些产生的代表性工件-分数, 分类器等, 你需要保持它运行。

这不是一次性的, 也不是一项微不足道的任务。数据总是在变化和演化, 所以消耗它的系统需要相应地响应和进化。大多数企业使用多个包 (通常来自不同的供应商) 来尝试实现这一目标。我强烈建议编写一整套单元、集成和回归测试, 以行使可能大量的流程和企业规模系统中涉及的服务, 以便能够对其进行评估和监视。此外, 强健的深层测试也有助于管理和顺利地进行不断的进化和变化过程。

了解您的数据, 对其进行分类和量化

同样的, 不同的组织在他们已经在做什么, 以及他们目前的系统有多成熟时, 在不同的地方都是如此。 这个过程真的没有结束。在改进现有系统 (或这些关键服务的健壮性和弹性) 方面, 总是需要做更多的工作。与许多过程一样, 这是一个旅程, 而且总会有更多的领域去探索。旅途虽然它可能是, 它是有用的问自己你现在在哪里他们各自也会对组织及其数据有不同的看法。换言之, 图片往往是相当复杂, 零碎, 和多维。并且将根据给定的视角而变化。

但是, 总的来说, 问自己从来都不是一件坏事, 我知道我的数据有多好?

决策者越来越认识到, 为实现额外的潜在收入、更高的利润率、提高客户满意度和敏捷问题的避免和缓解而存在着巨大的机会, 这是通过将连续长时间运行的进程正在中止当前正在演变的企业数据的业务消耗图片, 更新关键量化指标, 并使这些信号快速可用, 并无缝地集成到企业决策中。系统。

真正了解你的数据是从中获利的关键。

进一步阅读:

Comments are closed.