我们最近与talend大数据大数据产品市场总监isabelle nuage进行了联系, 以了解她如何看待大数据和分析的当前和未来状态。

贵公司如何参与大数据的接收、管理、分析和报告?

talend 是云优先的数据集成解决方案提供商, 可更快地为企业提供可大规模的洞察数据。我们为云中和本地的任何数据源提供数据管理、数据集成和数据治理产品。我们的客户使用 talend 为客户创建360度视图, 优化业务流程, 管理数据隐私和合规性, 并使用新产品和服务进行创新。

您认为成功的大数据计划最重要的要素是什么?

要实现数据驱动, 您必须将有用的数据交到所有员工手中。这需要自助服务解决方案, 使团队能够轻松地从任何地方访问数据。受管理的自助服务 (包括基于角色的访问、屏蔽规则和基于工作流的数据管理) 增强了决策者的能力, 而不会危及数据或破坏合规性。

但是, 如果没有适当的数据管理系统, 就不可能有成功的、受治理的自助服务。在当今的数字时代, 与客户之间存在着无穷无尽的接触点。拥有一个现代化的数据平台, 使组织能够创建一个单一的真相来源, 他们可以利用该来源来提高从物流到财务预测的业务绩效, 同时实现跨多个接触点的一对一购买体验。

除此之外, 组织仍然必须遵守隐私法规并采用适当的数据治理。精心打造的数据治理策略对于任何处理大数据的组织来说都是至关重要的。数据治理确保明确界定与数据相关的角色, 并在整个企业中商定责任和问责制。精心规划的数据治理框架涵盖战略、战术和运营角色和责任。

如何保护数据?

至少可以说, 保护数据的安全, 特别是在企业一级, 是一项艰巨的任务。我们控制了我们拥有的工具, 驯服它们, 从中受益。这就是机器学习 (ml) 介入拯救这一天的地方。通过将 ml 应用于数据, 我们可以快速开发历史数据映射, 关联不同安全源之间的事件, 甚至预测消极和积极的结果。

此外, 具体的数据治理计划建立了政策、标准、数据中心和控制, 以有效保护数据, 发布数据以供决策, 最后, 满足适用于数据隐私和主权的法律授权给他们。数据主权数据治理的端到端方法应解决以下主要挑战:

  • 通过使用元数据管理将关键数据元素映射到整个 it 环境中的数据字段来了解您的个人数据。

  • 通过创建用于数据管理和管理最终用户计算的工作流来促进问责制。

  • 建立具有本地数据质量的个人数据中心, 用于同意管理。

  • 使用审核跟踪和数据沿袭跟踪数据。

  • 提供隐私中心, 使消费者、客户、员工和公民都可以控制访问、整改、可移植性和擦除的权限。

在 talend, 我们依靠 gdpr 的五大支柱来保护和保护我们用户的数据 (我们也帮助我们的客户这样做)。我们创建并维护了一个完整的数据清单, 以了解我们存储和处理的个人身份信息 (pii)

您在数据接收、分析和报告中看到的最流行的语言、工具和框架是什么?

我们看到客户将越来越多的大数据工作负载从本地转移到云, 并从批处理转移到实时数据处理, 以满足他们的 sla 需求。我们看到越来越多的客户采用 spark, 并在云中创建数据湖, 以实现更多的数据, 以及更多的业务用例, 其中包括资源密集型的 ml、ai 和 nlp。这些客户和阿斯利康一样, 也在采用容器和无服务器技术, 根据季节性业务需求进行扩展, 并支付他们使用的费用, 而不是对闲置服务器收费。

您想要突出的几个大数据用例是什么?解决的业务问题是什么?

  • AstraZeneca是一家跨国制药和生物制药公司, 在全球拥有近 60, 000名员工, 收入为 22.5 b 美元。他们是为数不多的跨越从研发到制造和供应以及初级保健和特种护理药品全球商业化的药物生命周期的公司之一。AstraZeneca 开始了3年的旅程, 通过开发事件驱动、可扩展的数据平台, 转变了其核心 it 和财务功能, 并构建了基于动态、弹性云架构的创新数据平台, 以满足业务需求。AstraZeneca 是构建无服务器架构和在 docker 容器中运行 talend 的先驱, 以支持其庞大的月底高峰活动, 从而在一半时间内实现财务报告, 并以一半的成本实现价值两倍的价值。

  • 泛欧交易所是欧元区最大的泛欧交易所, 每天处理15亿条新信息, 每天交易200万条。英国退出投票的当天, 交易量和分析需求非常高, 实际处理时间超过了分配给批处理的时间窗口。这是泛欧交易所为其合规性和上市后分析平台制定云优先战略的关键时刻。

    如今, 泛欧交易所已经在 aws 上构建了一个数据湖, 使他们能够通过使用无服务器以相同的成本管理10倍以上的数据, 并遵守使用 talend 的法规 (rgpd、mifid ii)。此外, 在这种新环境下, 泛欧交易所的团队可以在短短几天内交付新的数据科学平台, 而过去平均为 45天, 并且能够通过数据流进行实时分析。该平台还允许通过市场将数据货币化, 市场已经占了他们收入的 2 0%。

  • uniper是一家拥有100年经验的全球能源公司, 在全球40多个国家拥有约 12, 000名员工, ebitda 为17亿欧元。uniper 大规模地生产、交易和销售能源。它们还采购、储存、运输和供应天然气、液化天然气、煤炭等商品以及与能源有关的产品。使用 talend, uniper 开始了一段旅程, 并为 17 + uniper 功能实体构建了一个数字平台, 该平台基于一个受治理的数据湖和一个在 microsoft azure 和雪花上运行的数据目录, 以扩展其分析并推动数据盈利。因此, 他们能够将集成数据的成本降低 80%, 将集成数据的速度提高 75%, 并在协同和效率方面获得50% 的收益。

在大数据计划中, 您看到的最常见的故障是什么?

大数据计划中常见的故障原因有四个:

  1. 缺乏支持文化: 企业往往缺乏支持数据驱动决策的文化。他们不是汇编数据, 让数据为他们工作, 而是经常根据直觉而不是数据来做决定

如果领导不信任这些数据, 为什么员工应该这样做?改变这种状况的唯一方法是改变业务文化, 实施数据驱动的文化, 这种文化包含从高层开始的分析的力量。

  • 忽略中层经理和员工反馈: 与上述文化和领导元素密切相关的另一个领域是一线经理和业务部门领导的适当参与。您的整个组织都参与了数据战略过程, 尤其是那些正在处理正在分析的领域的组织, 这一点至关重要。通常情况下, 高管试图在不征求日常处理数据的人的意见的情况下做出所有决定。

  • 数据过剩的沼泽:能够从数据库中获得大量洞察是一个巨大的壮举。大数据确实为外面的每一个行业都带来了很大的希望。但是, 过多的数据可能会很快变成数据沼泽。数据沼泽是无用的, 难以管理, 给您的团队带来麻烦, 并且是数据计划失败的主要罪魁祸首。然而, 由于数据的创建速度一天比一天快, 因此仅有更多的数据并不是答案。

  • 数据太多或数据太少:在 “数据沼泽” 的基础上, 另一个重要的考虑因素是确定您是否正在收集所需的数据。你吃的太多了吗?还不够吗?当您在可以想象的每个参数上收集数据时, 您最终会被混合在无用数据中的有用数据溢出。倾斜的洞察变成了大海捞针。同时, 你可能会害怕压倒你的团队, 无法收集足够的数据, 在你的团队试图做出决定的时候, 你会对他们造成阻碍。

  • 您对大数据的状态有什么顾虑吗?

    当今大数据的最大问题之一是数据隐私, 以及不断变化的合规性和法规如何影响企业如何处理数据管理。当 gdpr 在欧洲生效时, 大多数公司没有遵守这些规定, 因为大多数公司没有充分跟踪个人信息。要满足不断变化的数据法规的要求, 需要转变业务心态, 企业可以将其作为更好地服务客户的机会。这就需要一种新的方法和新的策略–而不是企业只检查另一个关于合规性的复选框。

    尽管适应 gdpr 具有挑战性, 但美国、日本和中国等其他国家已经开始为企业制定和实施自己的数据法规, 因为隐私和数据所有权非常重要。随着这些法规的实施, 我们将遇到尚未预见的挑战, 因为企业和消费者都在努力寻找和遵循最佳做法。

    从你的角度来看, 大数据的接收、管理和分析的未来是什么–最大的机会在哪里?

    随着关于人员、地点和事物的原始数据数量的不断增加, 以及计算能力和实时处理速度的不断提高, ai/ml 技术将对业务流程产生巨大影响。在利用这些功能之前, it 部门必须能够将来自不同数据源的数据集整合到一个安全、集中和可扩展的受治理数据湖中, 从而为大数据的获取和管理铺平道路实施新兴技术。如果组织没有有效的数据管理策略, 那么他们将无法利用未来几年即将到来的改变游戏规则的技术。

    无服务器计算是数据集成的游戏改变技术之一。有了无服务器和功能即服务, 公司将有无限的机会按需数据

    开发人员在处理大数据时需要记住什么?

    大数据和云生态系统不断变化–技术来来去去, spark 等技术版本经常更新。使用手工编码或在一组特定技术或版本上下注的开发人员可能需要重写其整个项目或陷入过去。重要的是要选择一个开放的平台, 让开发人员能够构建便携式数据管道, 这样他们就可以更加敏捷, 更快地采用新技术和创新。

    大数据可能包含敏感信息, 如果数据隐私和治理规则未正确应用, 则很快就会成为组织的责任。数据在所有业务单位都很有价值, 个人也认识到这一点, 但企业正在努力应对大数据生态系统。企业面临的挑战是在整个组织中传播数据技能, 同时确保质量。数据不再是一个人或部门的责任–确保质量是一项团队运动, 现在每个人都必须承担责任。

    对于开发人员正在处理的大数据项目, 您有什么想知道的吗?

    开发人员手工编码他们的大数据项目往往忽略了数据质量和治理的需要, 以及对整个连续集成的需求, 而这些持续交付则是为了实现适当的 sdlc。他们通常预计不需要快速扩展以满足业务需求, 也不需要以不同的速度集成越来越多的数据源。另外, 部署和维护的成本往往是事后的想法, 这让公司付出了巨大的代价。

    在优化数据价值方面, 我没有要求你考虑什么?

    我们知道, 公司55% 的数据无法访问, 只有45% 的组织结构化数据被积极用于决策, 只有不到1% 的非结构化数据被分析或使用。以下是一些将大数据用于分析的最佳实践:

    • 捕获不同格式和源的数据。例如, 捕获客户详细信息或非结构化数据 (如社交媒体帖子)。
    • 预先建立数据质量。检查准确性、清理数据和协调数据。
    • 利用自动化实现更快的处理。使用工具和机器学习, 而不是手工编码和加快数据处理。
    • 操作数据准备和分析。实时提取数据, 使您的团队能够看到相关性和趋势, 做出数据驱动的决策, 并有更多的时间进行创新。
    • 使用数据目录。目录数据集, 以便用户可以在创建新数据集之前确定现有数据集是否可用。
    Comments are closed.