在数据智能时代,面对海量数据的爆发式增长,传统数据库面临着成本、性能方面的挑战,与此同时也为新参与者带来了机遇。
近两年国内数据库市场发生了变化,越来越多的企业和人才投身其中。2016年成立的偶数科技便是是一家非常年轻的数据库创业公司,不过其创始团队绝对是数据库行业的老兵,公司也先后获得红点中国、红杉中国的投资,目前其产品已在金融、公安、电信、工业、能源和互联网等行业得到广泛应用。
站在巨人肩膀上不重复造轮子
提起偶数科技或者其产品OushuDB你可能不太熟悉,但是提到Apache HAWQ你应该不陌生。2018年8月HAWQ毕业成为Apache的顶级项目并受到国内外开发者的青睐,而偶数科技的创始团队是HAWQ创始人及团队,OushuDB是Apache HAWQ的企业版本。
偶数数据库首席架构师陶征霖
近十年来偶数数据库首席架构师陶征霖一直专注数据库内核研发,对PG社区与生态有自己的热爱与贡献,Apache HAWQ和OushuDB也是基于PG开发。这两年国内对基础软件自主可控的呼声很高,陶征霖觉得大家都是站在巨人的肩膀上前进。
“你从头开始造轮子是很没有必要的,你可以在一个产品的基础之上,融入创新的技术和想法,让它能够解决客户痛点。”陶征霖说,而PG社区和生态便是那个巨人。
2006年Hadoop诞生以后,数据分析领域产生了两大技术路线,一种是基于Hadoop,另一种是MPP的大规模并行处理路线,Greenplum数据库是其中的代表。但是两大技术路线各有优缺点,Hadoop可以支持大规模的节点,但是性能很慢,而MPP快、兼容性好,但是节点规模并发度扩展性差。
陶征霖介绍HAWQ结合了Hadoop以及Greenplum的优点,打造出了一个高性能的针对分析型数据库的系统,此外,团队实现了新一代云数据库架构,使计算和存储完全分离。存储与计算分离已经被工业界无数的案例所验证,是目前比较好的一种架构方式,相比于传统数据库,在处理高并发、扩展性方面有极大的提升。
2016年偶数科技成立,OushuDB对HAWQ进行了两大方面的提升,首先是开发了全新的SIMD执行器,可以充分榨取CPU性能,经过TPC-H测试,性能可以提升10 倍。另一方面,在今年9月份发布的OushuDB 4.0版本中,开发了分布式表存储Magma,并将其作为OushuDB的新一代数据存储底层实现。从此,OushuDB拥有了自己的原生表存储。Magma和HDFS并驾齐驱,解决了HDFS不能高效支持的特性,比如Magma支持表数据Update/Delete/Index功能,提供自动的数据存储和服务高可用。
从HAWQ毕业的2018年开始开源数据库发生了一些动荡,Redis Lab、MongoDB、CockroachDB等开源数据库宣布修改许可协议,引起了业内人士的多方解读。陶征霖认为这是公司的商业行为,并不会影响到PG,PG依然很开放,偶数科技也在积极拥抱开源回馈开源。
“我们拥抱开源,现在HAWQ是Apache的顶级项目,我们接下来OushuDB一些新的功能也会不断往开源社区合并,希望进一步提升社区的活跃度,也希望越来越多的小伙伴能够加入Apache HAWQ这个社区。”陶征霖说,他知道相比国外,国内的开源发展还比较初级,需要时间积累与打磨。
数据库上云要循序渐进
现在越来越多的企业上云上平台,而数据库也被称为是云计算的终极战场。国内外的云计算厂商都在布局云数据库,Gartner预计2023年将有3/4的数据库迁往云端。
陶征霖认为云化是大势所趋,但是国内用户会稍微滞后一些,很多企业出于合规性以及隐私的考虑会从私有云开始,然后将不太敏感的数据迁移到公有云上,最后慢慢拥抱公有云。目前国内企业的观念和行为习惯还没有培养成,需要循序渐进。
我们都知道“不能为了上云而上云”,陶征霖从架构层面对这句话进行了解读,“能不能很好的上云更多的是分布式数据库原有的一些架构方面的考量,是不是完全做到计算存储相分离,是不是能够做到动态加减节点,是不是能够做到弹性伸缩。如果做不到这几点其实你只是为了上云而上云,但是你和云结合的并不好。”这几点特性在数据库方面知难行易,数据库本身是一个很重的系统,需要投入大量的时间和精力,团队从2013年HAWQ 1.0开始 ,重写了很多模块,相当于在数据库内部动了很大的手术,一直做到2018年才把一个传统的MPP数据库打造成了云原生数据库。
今年,除了OushuDB核心的系统以外,偶数科技还推出了LittleBoy人工智能套件,以及Lava云平台,期望为客户提供一体化的系统以及更为全面的智能化分析,OushuDB可以部署在私有云也可以部署在公有云。
目前业内对云数据并没有一个统一的定义,数据库也是最难迁移的软件技术之一,上云涉及到对原有IT资产的改造问题,是上云并不是纯粹的技术考量,也要权衡原有IT资产以及相关成本。陶征霖认为一切还要看客户的需求,“数据库上云相当于给客户多了一种选择。”
数据库经过40多年的发展,从Oracle、DB2、SQL Sever传统数据库,到以MySQL、PostgreSQL为代表的开源发展,以及现在的云时代。技术的迭代和市场的变化,使传统数据库厂商国内外的差距正在缩小,也为国内厂商带来了机会。越来越多企业和开发人员拥抱开源,HAWQ能够毕业成为Apache的顶级项目也证明国内技术人员并不比国外差。是否开源,是否上云,如何上云,在变革的当下,在百花齐放的今天,都是探索者。
“希望无论是HAWQ社区还是PG社区,都能越来越好。只有他们做好了,依托于这些社区的公司才能办得越来越好。”这是陶征霖真切的期望,他和偶数科技也将继续站在巨人的肩膀上前进。