Azure HDInsight 4.0以Apache Hadoop 3.1为基础,其公开预览版最近在Azure上发布。其主要更新包括:
- Apache Hive 3.0 LLAP(在HDInsight中称为交互式查询的低延迟分析处理),改进了快速查询和事务。
- 具有可更新表的Apache Spark和使用Hive Warehouse连接器的ACID事务。
- Apache HBase 2.0及Apache Phoenix 5.0性能和稳定性特性。
Azure HDInsight是一个基于Apache Hadoop、Spark和Kafka的服务提供服务,用于大数据处理和分析。它以Apache Hadoop 3.1和hortonworks数据平台(HDP)3.0为基础,几乎所有的组件都进行了更新。
InfoQ联系了微软首席主群经理Arindam Chatterjee,了解微软Ignite大会上发布的关于HDInsight的消息。
他介绍了托管服务相对于传统的基础设施即服务的优势、可以创建的不同类型的集群(Apache Hadoop、Spark、Kafka、Storm等)以及如何根据实际需求定制。他讨论了基于活动目录集成的企业安全特性、数据迁移到集群的最新版本以及能够创建支持Jupyter和Zepplin笔记本的Spark集群。最后,他谈到了如何将社区工作整合到产品路线图中。
InfoQ:HDInsight捆绑了Hortonworks HDP版本,是吗?除了“PaaS与IaaS”方法的典型优势之外,HDInsight还提供了什么?
Chatterjee:Azure HDInsight确实提供了来自Hortonworks的HDP,然后对其进行了优化,使其能够在Azure中对Azure存储、Azure数据湖存储(ADLS) Gen1和Gen2等远程存储进行操作。HDInsight是一个“托管平台”,对于内部部署或IaaS部署,客户可以获得他们期望的全部控制权和可扩展性,同时仍然可以从高可用性SLA、24×7监控以及与他们希望从PaaS服务获得其他Azure服务的深度集成中获益。
InfoQ:尽管HDInsight采用了更多的PaaS方法,但是定制每个安装容易吗?
Chatterjee:有几种方法可以定制Azure HDInsight集群。首先,HDInsight允许客户通过ssh接入HDI集群,并根据他们的需求定制它,例如,通过安装自己的工具、微调配置设置等。其次,HDInsight还允许客户在准备集群时运行自定义脚本(又名ScriptAction),实现按需定制。
最后,客户可以在Azure Marketplace上选择Hadoop/Spark社区中最流行的30个应用程序中的任何一个,并将其安装到它们的集群中。这些应用程序针对大数据应用程序的所有方面都提供了独特的解决方案,包括数据摄取、机器学习、可视化、数据编排和治理等。
InfoQ: 从金融到医疗,在许多涉及大数据的垂直领域里,企业安全都是一个很大的需求。HDInsight在这个领域提供了什么?
Chatterjee:Azure HDInsight中的企业安全旨在提供全面的深度防御。
网络隔离:客户可以在VNet(虚拟网络)中隔离他们的HDInsight集群,并配置NSG规则,以确保只有经过批准的用户/设备才能访问集群。此外,它们可以使用服务端点安全来限制对包含最敏感数据的数据存储的访问。
身份验证:与所有Azure服务一样,Azure HDInsight集成了Azure活动目录(AAD),用于对所有的管理门户或功能访问进行身份验证。要访问实际的HDI集群,HDInsight支持通过活动目录域服务(ADDS)进行Kerberos身份验证。这些特性使企业用户能够使用企业域凭证登录HDI集群。
授权:对于对所有的管理门户/操作,除了要严格执行标准的基于Azure角色的访问控制(RBAC)策略之外,Azure HDInsight还支持Apache Ranger,用于对Hive/Hbase表、Spark和Map Reduce任务、Kafka主题等进行细粒度访问控制。
数据保护:使用Azure HDInsight,客户使用Azure存储或ADLS Gen1和Gen2存储数据。客户可以利用这些存储的静态加密特性来保护他们的数据。客户可以选择是管理自己的加密密钥(在Azure密钥库中),还是让微软代他们管理。
HDInsight确保所有移动中的数据都使用TLS加密。
InfoQ:Spark已经接管了大数据应用场景,这是否表明Hadoop已过时?您可以就Azure Databricks和Azure上的HDInsight/Spark做下对比吗?
Chatterjee:虽然与Apache Hadoop(特别是关于查询性能)相比,Apache Spark确实有其优势,但我们看到,为了更好地满足其用户日益增长的需求,Hadoop和Spark栈都在进化。
Azure Databricks是一款高级Spark产品,非常适合希望他们的数据科学家能够轻松协作、以行业领先的性能高效运行基于Spark的工作负载的客
Azure HDInsight将Hadoop和Spark统一管理,使企业能够使用相同的工具集来管理它们,比如,使用Ambari、Apache Ranger等。通过支持Jupyter和Zeppelin笔记本,它还提供了行业标准的笔记本体验。希望轻松管理所有大数据工作负载的企业可以选择使用HDInsight。
InfoQ:您能谈一下数据从以前的版本向HDInsight 4.0迁移并推荐一些最佳实践吗?
Chatterjee:我们刚刚发布了基于Apache Hadoop 3.0的Azure HDInsight 4.0预览版。我们正在与早期的采用者一起研究数据和代码从HDInsight的以前版本迁移的最佳实践。在此之前,我们鼓励客户查看开源社区提供的文档。
InfoQ:除了继续与Hortonworks合作之外,您能否提供一个HDInsight 4.0之后的路线图以及与Hadoop、Spark和其他社区合作的计划?
Chatterjee:微软将继续积极地参与到更广泛的开源社区中,向包括Apache Yarn在内的多个项目做贡献,并在最流行的开发工具(如Eclipse、IntelliJ、VSCode等)中提供创新性的开发和诊断功能。此外,我们将继续跟踪数据领域中出现的场景和创新(如流媒体、深度学习、实时BI等),目标是为客户提供最安全、最具成本效益的解决方案。
关于HDInsgiht最新版本的更多技术细节,请听Microsoft Ignite大会演讲的录音。