严格地说, “非结构化数据” 在术语上是矛盾的。数据必须具有可理解的结构。所谓 “非结构化数据”, 人们通常指的是具有非表格结构的数据。

表格数据是表中的数据。每一行对应于一个主题, 每列对应于一种度量。这是最容易使用的数据。

非表格数据可能意味着表格数据以外的任何东西, 但实际上它通常意味着文本, 也可能意味着具有图形结构或其他结构的数据。

更富有成效的讨论

我在这里的观点不是在语言使用问题上争论不休, 而是提出一个建设性的建议:说什么结构数据, 而不是它没有什么结构

关于 “非结构化数据” 的讨论往往没有成效, 因为两个人可以用两个不同的想法来表达这个词的含义, 并认为他们在不同意的时候是一致的。也许一个高管和一个销售代表就一个并不是真正协议的协议握手。

最终, 必须讨论结构数据到底有什么, 而不是它所缺乏的结构, 以及这种结构在多大程度上是可以利用的。早一点进行讨论可以节省很多钱。

自由文本字段

“非结构化” 数据的一种形式是自由文本字段。这些字段并非没有结构。它们通常包含散文, 用特定的语言写, 或者最多用少量语言写。这是一个开始。从上下文上看, 应该有一个更可利用的结构。这段文字是病理报告吗?脸谱状态?法律意见?

客户端将询问如何取消对自由文本字段的标识。你不能。如果文本是真正免费的, 顾名思义, 它可以是任何东西。但如果有一些已知的结构, 那么也许有一些实用的方法来匿名数据, 特别是如果对错误有一定的容忍度的话。

例如, 程序可能会搜索和屏蔽可能的名称。这样的节目会找到 “伊丽莎白”, 但可能找不到 “女王”。因为只有一对夫妇女王 [1], 这将是一个侵犯隐私。这样的软件也会有误报, 比如掩盖了远洋轮伊丽莎白女王2号的名字。[3]

笔记

[1] 维基百科目前的主权君主名单中只有两名女性, 英国女王伊丽莎白二世和丹麦女王玛格丽特二世。

[2] 船, 也被称为 qe2, 是女王伊丽莎白 2, 而君主是英国女王伊丽莎白 ii。

Comments are closed.