继开源GaussDB,成立鲲鹏智能数据产业联盟数据库产业推进组等之后,华为围绕数据基础设施,构建数据产业格局和生态方面再爆大动作。
11月19日,“以引领数据基础设施,携手迈入智能时代”为主题,由华为主办的2019全球数据基础设施论坛在深圳召开。会上,华为解读了基于昇腾和鲲鹏处理器的数据基础设施3大场景化解决方案, 以及自动化数据库管系统;还有“一奖两组”的重大发布。
一奖:华为首次公开悬红数据基础设施技术难题,设置“奥林帕斯奖”,奖励全球在数据基础设施领域取得突破性贡献的科研工作者,每个难题悬红100万。
两组:会上,华为宣布成立鲲鹏智能数据产业联盟大数据产业推进组、智能边缘产业推进组。
事实上,这“一奖两组”包括此前的一系列动作,都源自华为做数据基础设施的两个方面挑战:一、平台+生态,二、技术。
奥林帕斯奖
奥林帕斯,奖名源自奥林帕斯山,是整个太阳系中最高的山,位于火星西半球,高度2.1万米,是地球最高峰珠穆朗玛峰的2倍还多。
华为以此命名该奖项,有什么含义?针对哪些数据基础设施技术难题?
华为 IT 产品线副总裁、智能数据与存储产品线总裁周跃峰在接受笔者采访时表示,以“奥林帕斯”命名,凸显的是难题的难度,为悬红数据基础设施技术难题而设置,奖励对象是全球在数据基础设施领域取得突破性贡献的科研工作者,每个难题设置奖金100万元。
让数据在全生命周期内每比特价值最大,每比特成本最优,是华为对数据基础设施的目标和远景。而要做到这一点,尤其是在基础技术领域的突破,华为很清楚,仅仅靠自己是不够的,需要各方共同参与。
为此,华为还定义了两大难题:一是实现“自动驾驶”的数据全生命周期治理;二是构建每比特极致性价比的数据存储;
这两大难题到底难在哪?制定的依据是什么?非技术人员可能很难理解,因此,本文将会多花些篇幅来进行解读。
周跃峰表示,两大难题的制定,华为征求了大量学术界专家的建议,实际上,这两大难题并非命题作文,而是比较宽泛,涉及众多的技术问题,如跨地域分布式操作系统、万节点人工智能治理、千核级异构算力、新型存储介质、类脑智能数据缩减等,这些都是非常有挑战的基础技术课题。因此,学术界可以从多个方向攻坚,有很大的自由选择空间。只要在该领域取得成绩,符合要求,就能拿到奖励。
周跃峰特别强调,如果这些难题被攻破,将对于中国乃至全球的数据基础设施产业发展具有巨大的牵引和推动。
接下来,先看第一道难题,实现“自动驾驶”的数据全生命周期治理到底难在哪里?
要实现自动驾驶的数据全生命周期治理,涉及2个方面的挑战,首先,是如何实现算法级的智能数据全生命周期治理,如何支持免人工的多样性数据接入、AI数据脱敏、自动数据建模、自动标签、自动catalog、自动运维等能力?
众所周知,当前数据治理在效率上存在相当大的挑战,很多环节基本靠人;如各种不同数据来源需要人工进行转换、清洗过后才能接入到分析系统,数据中的隐私信息无法得到有效识别和保护,数据分析模型需要不断重复调优迭代,在进行数据分析前需要大量人力进行人工分类,数据散落在各处需要人工建立并维护全局元数据信息(catalog)标识数据的有效位置,因此,针对端到端的数据生命周期流程中,各种人工处理如何实现智能化、自动化,是提高数据分析效率的关键挑战。
其次,是基于新的内存型介质,如何构建兼具云化扩展能力和传统数据中心生态的数据库,如何满足多模(TP/AP、批流、异构、Iot、区块链等)融合实时分析需求?
当前有传统数据库、分布式数据库、NoSQL、NewSQL等多种数据库架构,同时面对传统的OLTP、OLAP场景、批处理、实时流处理场景,以及新型的Iot、区块链等场景,同一类型的数据库又有不同的数据库产品;那么如何构建一个智能数据库系统,能够即满足传统数据中心的业务要求和生态接口,又能满足云化场景下的扩展能力,支持不断扩展的新场景,使得线下客户能够轻松满足当前生产需求又能满足未来演进扩展,成为数据处理的重大挑战。
再来看第二难题,构建每比特极致性价比的数据存储又难在哪里?这也涉及2个方面,首先是基于内存级新介质和SSD,如何实现具备内存级性能、HDD成本的主存系统,针对温冷数据,如何实现具备磁盘级性能、磁带级成本的备份归档存储系统?
其次,是如何构建新型操作系统,充分发挥千核级异构算力、存算一体化介质、智能计算网络等硬件资源,避免数据无效迁移,提升数据实时处理,并支持现有程序平滑迁移;
从硬件的发展趋势来看,一方面多核快速发展,一个server具备千核算力,另一方面计算能力和介质、网卡、交换机不断融合,呈现计算能力无处不在的趋势,如何构建一个操作系统,能够满足千核暴力算力、异构融合算力的统一高效调度?怎样才能够把硬件能力的提升无缝应用在上层的存储、数据库、大数据等应用上,这些都是问题。
新成立两大产业推进组
本次大会上,华为携手产业伙伴成立鲲鹏智能数据产业联盟大数据产业推进工作组和智能边缘产业推进工作组。
不到半年时间,华为立足于数据基础设施,围绕“平台+生态”的策略,分别成立了鲲鹏智能数据产业联盟数据库产业推进组、大数据产业推进组、智能边缘产业推进工作组。
据周跃峰透露,明年还将成为存储产业推进组。
华为成立大数据、边缘产业产业推进组成立的背景和目标是什么?于华为自己于整个产业有哪些意义?
周跃峰说,“目前,数据基础设施技术的标准均由西方制定,如果我们只是满足于用西方的东西,那么,是不需要推进组的,反之,就是我们成立推进组的原因。”
华为清楚,要想将整个数据基础设施产业做大做强,需要大生态来支撑,成立推进工作组,不仅能引导和制定存储、数据库、大数据、 智能边缘等行业标准,解决行业技术难题,加快数据基础设施领域人才培养,帮助产业链上下游伙伴可持续发展。而整个数据基础设施产业的蛋糕做大了,才能实现商业价值,同时构筑华为在数据基础设施的核心技术能力。
据了解,华为希望用 2-3 年的时间,成为有影响力的智能数据基础设施产业的发动机,推动数据基础设施技术的持续创新,促进数字经济发展。
最后,笔者想用周傲英教授在本次大会上演讲的一张配图作为结尾,基础技术的突破虽然很难,但“想,都是问题,做,才是答案。”