介绍
对于 2018 的大数据指南, 我们调查了540软件和数据专业人员, 以获得他们对围绕大数据领域和数据科学实践的各种主题的思考。在本文中, 我们关注的是被调查者告诉我们的关于数据库管理系统 (DBMS) 和使用云来分析数据集的信息。
数据库管理系统
数据库人气一直 (根据 db 引擎. com) 在过去几年中以相当稳定的模式移动。2012/2013 在 mysql 克服了微软的 DB 之前, 看到了 MS SQL server 和 mysql 之间的一些战斗, 甲骨文的数据库站在上面所有 (尽管自2016年以来显著下降, 有时可能被 MySQL 超越)。在我们的大数据调查受访者中, MySQL 仍然是2017年最受欢迎的 DBMS, 尽管它的人气下降了 (在2017年生产的61% 使用量和2018年生产的55% 使用量)。另一方面, 甲骨文在生产中的使用从2017年的48% 增加到2018年的54%。其他 DBMS 的生产趋势变化包括: 受访者使用 PostgreSQL 的频率从35% 增加到 41%, 被调查者使用 MS SQL server 的频率从49% 降低到42%。
最后, 当被问及哪些数据库被应答者专门用于他们的 “大数据需求” 时, 最常见的响应是 NoSQL dbms MongoDB, 比下一个 dbms 的 “大数据” (Oracle) 在29% 中的应答者多11%。虽然我们已经看到高级文件系统 (如 Hadoop) 开始对大型数据收集和分析产生影响, 但非关系数据库似乎也显示出它们在处理数据量、速度和种类等标准级别之外的价值。
云中的数据
自去年的调查以来, 受访者通常使用 “云” 中的数据, 而不是基于前提或混合方式。那些在云中工作的人 (特别是回答他们有数据科学经验的应答者) 从2017年的31% 增加到2018年的39%。同时, 受访者表示, 他们通常处理数据的前提或混合格式从去年的反应下降了6% 和 4%, 分别。虽然在云中使用数据的增加是不足为奇的, 但考虑到总体云计算的发展趋势, 特别是对于大数据需求的云计算数据的增长与我们研究的其他领域的云计算相比是微不足道的,如连续交货。这很可能是因为真正的 “大” 数据往往更容易和更快地与它的接近。
结论
如果我们将调查结果与站点DB 引擎的排名进行比较, 就会发生一些波动。而我们的受访者将 mysql 列为最高 DBMS, DD 引擎将 mysql 放在甲骨文后面的第二位。DB 引擎排名中的铜牌进入了微软的 SQL server。但是, DB 引擎排名并不是针对大数据的, 这可能会影响结果的差异。
使用大型数据集时, 您首选的 DBMS 是什么?