“大数据” 一词在文章和办公室讨论中经常出现, 但利用大数据到底意味着什么?
大数据: 这是你似乎无法摆脱的流行语之一。虽然你可能知道它的含义, 但你可能不知道真正利用大数据的力量所需的东西的来龙去脉。
我们与商业网站首席技术官罗伯特?斯威瑟 (robert swisher) 坐下来, 更好地了解大数据的大不了物有多大。他分解了这一切意味着什么, 以及如何让它为你工作。
大数据到底是什么?
rs: 基本上是一组很大的数据。人们使用不同的术语, 但它只是大量的数据–结构化和非结构化–以高速和大体积的速度进入状态, 很多时候并不是那么 “干净”, 所以你必须对这些数据进行操作、消毒和隐蔽, 以清理和制作它 可用。
不过, 其核心只是一组庞大的数据。
这些数据到底是什么?
rs: 所以, 例如, 它可能是百思买的所有销售点数据。这是一个巨大的数据集–所有通过收银机的东西。对我们来说, 这都是网站上的活动, 所以有一吨的人过来, 做了一堆不同的事情。它并不是真正的凝聚力和结构。
例如, 有了销售点, 你就会看到人们在购买什么, 他们历史上做了什么。您正在查看他们在电子邮件通讯、忠诚度计划数据和您以直接邮件发送的优惠券中点击的内容, 这些信息是否已被兑换?所有这些东西汇集在一起, 形成了一个围绕购买行为的数据集。你可以看看客户做什么 “喜欢”, 以预测类似的客户也会买什么。
为什么大数据是如此的大趋势, 现在反对多年前?
rs: 我认为这项技术需要时间来发展。用于大数据的核心技术是大约十年前开发的。有软件组件允许您管理这些数据集, 还有存储和计算成本的硬件组件越来越便宜, 这使得大数据更便于企业访问。他们现在可以利用他们的大型数据集与现成的开源技术。
什么是最常见的关于大数据的误解?
rs: 在我看来, 人们认为这是这个神奇的东西。他们想, “我们只要打开它, 现在事情就会成功, 我们就会知道所有这些事情”但这并不那么简单–它实际上真的很复杂, 你需要合适的设备和人员来理解如何分析和处理大数据。
越来越多的简化工具正在出现, 供非技术用户创建仪表板并获取他们正在寻找的一些信息, 但这是一个非常专业的技能。这不是你可以打开就拥有的东西。为了让这些东西奏效, 对人、时间和成本都有投资。
你会说第一步是确定你到底在测量什么吗?
rs: 那将是做这件事的一种方式。另一种方法是列出你没有使用的数据类型
你说的是4比4。为什么他们每个人都很重要, 你如何衡量每个人?
rs: 整个数据集的数量(即进来的所有数据集) 可能以千兆字节或千兆字节 (磁盘规模的存储) 来衡量。
速度是数据进入的速度, 例如, 它将以每秒记录或每秒位等单位来衡量。
多样性意味着你有一堆不同的信息, 你正在整理这些信息, 以围绕你想要解决或理解的东西建立一个有凝聚力的模型。
准确性意味着, 数据往往是不干净的, 你必须处理这个问题。我没有知道的衡量指标, 但这很重要。
到了这一点, 是什么让数据不干净?
rs: 一个很好的例子就是垃圾。假设人们提交的是电子邮件地址, 很多时候, 都有拼写错误、拼写错误, 或者它们不是真的。每当你看的是基于用户输入的东西时, 往往会有很多错误, 或者只是明目张胆的、虚假的信息。
您将如何开始大数据?
rs: 您要么需要内部的工程师和工具, 要么需要找到专门从事这项工作的咨询公司或公司。后者可以进来, 帮助你把它设置好, 让你开始, 这是一个很好的路线。
有一些现成的平台可以让你有一些洞察, 比如 gooddata 和 tableau, 在那里你可以按月付费插入你拥有的数据集。他们的仪表板功能可以帮助非技术用户创建图表, 并寻找趋势进行分析。