国产替代背景下,数据库和数据分析行业的发展和投资机会

钛资本研究院

钛资本研究院

· 6月20日

国产替代、自主可控背景下,国产数据库、数据分析行业将有很大的市场空间。

播放 暂停

国产替代背景下,数据库和数据分析行业的发展和投资机会

00:00 20:59

图片来源@视觉中国

图片来源@视觉中国

文 | 钛资本研究院

国产自主可控是最近非常热门的话题,从2018年开始启动到2019年已经有众多的厂商加入了实现国产自主可控的行列,并且随着疫情的发展、中美贸易战的摩擦,国产自主可控已经是一个核心话题。钛资本投研社邀请了投资人党成磊,分享国产替代背景下数据库与数据分析行业的发展和投资机会。

党成磊毕业于上海财经大学,拥有电子信息工程学士和经济学硕士学位,曾就职于海航、复星集团、德邦证券直投子公司,有多年的产业经验,主要从事大数据、云计算、AI、安全、物联网、芯片等技术领域和技术驱动相关的金融、零售、工业互联网领域的研究和投资工作。 

01 数据库市场分析

操作系统、中间件、数据库是基础架构软件领域开发难度最大的三个部分,替代周期非常长,因此国产数据库会有很大替代的机会。

数据库首先从OLTP和OLAP说起。如下图所示,OLTP联机事务数据库一直由Oracle、IBM DB2、MySQL、SQL Server等占据主导地位,而国内阿里的OceanBase、腾讯的TBase、达梦数据库、PingCAP才刚刚起步。

2018年商业数据库市场规模147亿,Oracle在电信、金融、能源、电力领域占据主导地位,MySQL在互联网行业应用广泛,同时这个行业存在一个较大的的缺点,就是价格比较昂贵,且都基于传统的集中式架构。

根据第三方统计数据,以传统集中式数据库市场为例,Oracle占比40.9%、IBM DB2占比11.9%、SQL Server占比6.7%、SAP占比5.9%,其余厂商占比分散。该市场以跨国巨头为主,国产替代安全自主可控下的国产数据库在未来将有很大的市场空间。

接下来再到OLAP联机分析的数据库。OLAP从最早的数据库一体机,逐渐演变到MPP数据库和Hadoop数据库。数据库一体机价格非常昂贵,国产替代有南大通用、人大金仓、天玑、云和恩墨等;而MPP数据库的实时性非常强,现在主要是Vertica、Greenplum;最后是Hadoop数据库,有星环、中兴、华为等传统的硬件厂商在搭建Hadoop数据仓库。根据第三方数据统计,2018年OLAP的市场规模大概在70亿左右。

数据库占整个IT基础架构软件的高市场份额。根据Gartner统计,2017年全球数据库管理软件的规模达到388亿美元,其中数据库软件占到整个IT基础架构软件的20%。数据库主要分两个维度:第一个维度是关系型、非关系型,例如Oracle、MySQL、DB2、SQL Server等都属于关系型数据库,MongoDB、Tigergraph、neo4j、TITAN等则属于时序数据库即非关系型数据库;第二个维度是OLTP和OLAP,就是联机事务处理和联机分析。以后的趋势是更加关注OLAP与非关系型数据库。

 

02 数据库简史

谈及数据库的发展历史,就不得不提及三位数据库领域的开拓者,分别是Frank、Micheal和Jim Gray,他们为数据库理论奠定了坚实的基础,都获得了图灵奖。早在1972年,Micheal最早提出了Ingres数据库,于2014年获得图灵奖,Ingres数据库最后分化衍生为Sybase与Postgres两部分。其中Postgres数据库有大量分析函数,适用于分析型事务,尤其是OLAP。1972年,埃里森在硅谷开发了Oracle数据库,再到1983年IBM开发了DB2数据库,同年Tdata诞生,直到1995年MySQL数据库诞生。而如今的Oracle于2009年收购了MySQL,这样一来就同时拥有了Oracle和开源的MySQL两套数据库,MySQL的创始人在离开后又开发了一套数据库MariaDB,现在国内有很多银行,像亿联银行等新的银行都在使用MariaDB。

在此先回顾一下OLTP数据库的发展历程。2003-2006年,谷歌发布了几篇关于分布式关系型数据库的论文,以此为基础2012年开发了谷歌F1作为内部自用数据库;2014年CockroachDB研发分布式关系型数据库,2017年国内的刘淇团队也成功开发了PingCAP数据库;到了2015年,阿里巴巴的OcenaBase经过内部多年打磨最终对外推出使用。

然后是OLAP数据库的发展历程。OLAP最早为数据库一体机,由IBM Netezza、Oracle Exadata、Teradata应用于高端存储上,对于硬件要求非常高。到2000年后MPP数据库大规模应用,成功实现了软硬件分离,数据不再需要存储在专有服务器上。2006年到2008年期间,随着Hadoop的大规模普及出现第三代分析型数据库,数据存储与HDFS之上,能够存储、计算分离、实现各节点间的访问,具有很强的扩展性能。之后在Handoop的基础上进一步完善优化数据库性能,称之为最新一代数据仓库,代表的有HAWQ、Hive、Impala等。

03 数据库相关概念

关于最早的数据库一体机,Oracle在收购了SUN之后开始推广软硬件一体机,开发了一款叫Oracle Exadata的产品,是由数据库服务器Database  Machine和存储服务器Storage Server组成,最核心的技术是Exadata Cell,用于数据的存储和调度,现在国内的天玑云和恩墨也在做数据库一体机,是通过浪潮、曙光、联想、华为做软硬件适配。

数据仓库的概念。现在有许多大中型企业都在搭建数据仓库,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于做决策管理和全局信息共享,主要功能是将OLTP联机事务处理产生的大量数据,通过数据挖掘、通过联机分析,通过OLAP来帮决策者进行统计分析。

数据湖的概念。数据湖是一个存储整个企业各种各样原始数据的数据仓库,其中数据可供提取、处理、分析、传输,数据湖可以包括来自关系数据库的结构化数据,半结构化数据(CSV、日志、XML、JSON),非结构化数据(电子邮件、文档、PDF)和二进制数据(影音材料)。

数据中台的概念。数据中台是将企业内外部多源异构的数据进行采集、治理、建模、分析、应用,使得数据提升内部的优化管理,数据中台是企业数字化转型的第一步。国内大量的企业由于系统建设的烟囱式导致了各个系统存在数据孤岛,后端的精英决策层无法实时的掌握前端业务的变化,因此需要一套统一的数据中台来整合数据、整合产品,形成数据共享,为敏捷型业务提供快速决策的支持,这套方法论其实最早由阿里巴巴从国外引进并应用在整个体系中,之后才得以在国内推广。

下图是一个典型的数据中台的架构,按照从本地的硬件存储和云服务的存储层—>计算层->数据治理层->数据应用层->业务应用层逐层上升的模式架构而成。

详细解释一下Hadoop和MPP的概念。Hadoop最早是Apache基金会开发的一个分布式的系统架构,它实现了分布式文件系统,简称HDFS,最大的特性是利用计算机集群来进行高速计算和存储,其核心是HDFS和MapReduce,HDFS是海量数据的存储、MapReduce是海量数据的计算。

Hadoop技术的开发初衷是雅虎、谷歌等互联网公司为了做海量的互联网数据处理而设计的。2005年将之开源,很多公司例如MapR、Cloudera以及星环等都是利用Hadoop技术做商业化的应用。

接下来是MPP数据库,MPP的字面意思就是大规模并行处理,主要用于实时计算场景,它和Hadoop最大的区别在于Hadoop是存储和计算都彻底分布,MPP则是计算分布、存储集中。MPP数据库分为两个流派:一个是有主节点的,以Greenplum为主;第二个流派是无主节点的,以Vertica为主。

简单比较一下MPP和Hadoop:MPP是将任务并行的分散到多个服务器和节点上,每个节点各自计算,然后汇总一个结果;Hadoop应用在海量数据进行非实时的计算,它支持结构化和非结构化的数据,像互联网公司以及数据量巨大的跨国集团,都非常适用。二者相比,MPP更加强调的实时计算,它其实是中型规模的数据运算,主要支持结构化数据,尤其是像银行、证券、保险、基金等金融机构,强调数据计算实时性,普遍都会用Vertica和Greenplum。

04 数据库发展趋势

首先,由于 MPP和Hadoop各有优劣势,于是有创业公司尝试把MPP和Hadoop结合在一起使用。例如偶数科技利用了Hadoop的海量结构化和非结构化的特性,同时又利用了MPP实时性的优势。

第二个趋势是数据库都在从集中式逐渐转到分布式。Gartner的报告中指出以下三点原因:第一点,随着数据量的增加,硬件性能的瓶颈,尤其是摩尔定律的限制,传统的集中式架构完全无法满足客户的要求,不论是数据库还是整个应用软件,都有从集中式转分布式的趋势;第二点,由于数据库设计的理论存在CAP理论,即数据库的一致性、可用性、容错性三者不可兼得,那么未来数据库一定是一个分散的市场,每家的数据库一定是各有侧重点;第三点,随着业务的发展变化,未来交易型数据库和分析型数据库会逐渐融合, AP和TP在融合,所以HTAP必定是数据库的一个未来的发展方向。

第三个发展趋势是从SQL到NoSQL。Oracle、MySQL、SQL Server大部分是二位表结构,使用SQL语言,但是随着数据量的爆发式增长,像影音、文档、流媒体大幅度增加,Gartner认为数据未来一定是从SQL到NoSQL的方向发展,包括:文档数据库、健值数据库、图数据库和时序数据库。

第四是关于NoSQL的发展趋势,根据DB Engines第三方的统计,图数据库是发展最快的,搜索数据库紧随其后,第三是文档数据库,第四是健值数据库。在图数据库领域有两家明星公司——硅谷的Tigergraph和Neo4j,Tigergraph上一轮估值三亿美金,由百度华创投资;还有就是文档数据库,代表性公司MongD已经是上市公司,估值92亿美金,收入2.6亿,可以看到在这个领域存在能够实现国产替代的机会。

对数据库发展进行总结和回顾:首先,做数据库行业需要长时间的积累,例如Oracle从1978年开始至今已有40多年的历史,才发展成如今的规模;第二,做数据库一定要有一个生态,自从X86替换小型机,DB2的市场份额逐渐下降以及软硬件分离的趋势,导致Intel、微软的操作系统得以普遍应用,在此生态下才有Oracle、MySQL发展壮大的机会;第三,做数据库需要长时间的持续性投入,要几十年如一日,例如蚂蚁金服的Oceanbase、华为的高斯、腾讯的TBASE都做了很大的投入。

关于数据库行业的探讨:第一,在数据库领域,国产数据库发展还比较缓慢,在党政军领域应用较多,而在金融机构领域应用较少。国产数据库长期被Oracle、IBM、MySQL这类产品挤压,随着中美贸易战的升级、国家鼓励软件国产化,国产软件将会越来越被重视,这将是一大转变契机;第二,在国产数据库的OLTP领域,华为、阿里、腾讯等厂商有技术优势和资金优势,同时也有生态和渠道的优势;第三,创业公司进入OLTP领域门槛非常高,而在 OLAP领域,建立新一代数字据仓库以及NoSQL数据库方面,未来会涌现更多的创业公司,这块可能是很多投资机构接下来要重点关注的方向。

05 数据库和数据分析领域的优秀标的

数据库和数据分析行业有几家比较优秀的标的公司。

第一个是偶数科技,常雷博士最早在EMC、Pivotal做MPP数据库研发,后来他在Apache基金会做了一个HAWQ开源的项目,成功结合了MPP的实时并行计算技术优势和Hadoop的可扩展性,最后将其进行商业化,成立了偶数科技。全球很多大型金融传统行业都在用其技术,偶数科技成功拿到了红杉红点的A轮融资并且已经融到了B轮。

Kylingence是韩卿的创业项目,他最早是eBay中国区的员工,后来在Apache基金会做开源的Kylin项目,具有相当成熟的项目经验,该公司已经融到了C轮, 

巨杉数据库2011年成立,总部在广州,王涛来自IBM DB2核心团队,主要做金融级分布式数据库,已经进入了500多家的企业,其中包括50家的大型金融机构,恒丰、广发、民生等很多金融机构都在用巨杉数据库。

通过公开资料可以了解到,目前国内比较好的数据库公司包括:实时数据、流数据处理比较好的有巨杉、柏睿、人大金仓、南大通用、达梦、热璞数据库;分析型OLAP有星环、偶数、Kyligence,创邻科技;数据中台则有数澜、吉贝克、御数坊、智领云、聚云位智;数据库服务领域有云和恩墨、天玑、爱可生。


大数据公司列表(公开资料整理)

大数据公司列表(公开资料整理)

如下图,是对标的已经上市的大数据公司估值和融资情况,这些都是国产数据库未来的标杆:例如MongoDB是一个商业化公司主导的项目,同时做开源和商业化的版本;Mongo2007年成立,现在已经估值达到超过77亿美金,收入2.67亿;Oracle是一个长牛股,市值过千亿并且还在快速发展,国内的做基础架构软件的公司都在分析学习Oracle;最后是图分析领域,前文提到的Tigergraph和neo4j两家明星公司,现在中国银联、VISA、Mastcard很多金融机构都在用图分析做风控、做反欺诈,这个领域在未来有很大机会能够实现国产替代。
对标的大数据公司估值情况(公开资料整理)

对标的大数据公司估值情况(公开资料整理)

Q&A

Q:中国的国产数据库很多是源于开源的数据库,中国数据库能不能发展出比较大的开源生态?

党成磊:首先中国有全球最大的消费市场,有PC互联网、移动互联网的人群,不论2B还是2C,我认为未来数据库一定有发展的土壤和前提条件;其次,从现状来看,像PingCap等很多创业公司,以及华为、阿里腾讯等大型公司和越来越多的金融机构都在使用数据库;三是IBM、Oracle、MySQL、SQL Server等外资大厂为中国培养了大量的数据库研发人员,再加上国家层面对国产数据库的扶持政策,相信中国数据库能发展出比较大的开源生态,生态会越来越完善。

Q:现阶段这些创业公司有没有机会去挑战大厂,突破以前国产数据库厂商的天花板? 

党成磊:首先还是回到业务场景上来,先说金融机构,电信、电力、能源、交通、铁路这些数据密集型的行业,这几年都在干一件事——从大型机、小型机往X86迁移,在这个过程中不管是Oracle还是IBM的DB2,分布式将是一个必然趋势,例如巨杉、PingCap等公司都在做分布式关系型数据库,这是一个技术发展的必然趋势。

另外随着数据量的增大,尤其是银行,原来银行业务主要是存款取款,现在银行还有理财、买基金、买电影票、交水电煤气费,信用卡分期等业务,传统Oracle集中式关系型数据库并不能很好满足的业务场景,创业公司从分析型数据库切入,是逐渐蚕食Oracle的一个方法。这次中美贸易战,自从去年Oracle把很多美国敌对国家的数据库服务停掉以后,这给国内数据库厂商很大警醒,长远来讲中国肯定还是要有自己的数据库。

Q:Oracle、DB2被替换掉以后,国内自研OceanBase、高斯、TIDB和MySQL生态的竞争会如何?自研生态中大厂和创业公司的竞争会如何?

党成磊:这是两个应用场景, OceanBase现在所有的客户全是金融客户,是金融关系型分布式数据库;而高斯其实是从开源上重构而成,在电信和金融行业应用得比较多;TIDB目前是在互联网行业应用较多。第二个方向其实是MySQL生态,互联网公司更倾向于使用MySQL,国内厂商做实施、集成、应用和服务。

从竞争角度来讲,自研生态的技术壁垒更高,商业化和用户付费的意愿更强,所以自研生态的大厂像华为、阿里、腾讯有天然的优势。创业公司需要把产品做得足够好,还有大量的数据场景限制,大厂综合实力上比较强也有渠道销售优势,创业公司一定是自己的产品过硬,比如像PingCap或者巨杉这样解决了客户的痛点,在大厂综合实力没有那么强的时候,创业公司才能胜出。所以这个领域,我觉得确实是大厂拼综合实力,创业公司拼技术。

Q:CAP理论是否可能被冲击?云数据库未来的发展,怎么看?

党成磊:以阿里为例,有足够多的技术积累也有足够多的资金支持,在满足一致性和容错性的时候并没有牺牲高可用,而是用其它软硬件方案弥补。而CAP理论是整个数据库设计的基础,至少说这几年内在数据库设计原理方面还没有特别大的突破。

云化会不会对传统数据库的理论、架构造成冲击,这方面多多少少是有的。首先看到现在AWS云和谷歌云上都有很多数据库,云化是一个未来,云化也会蚕食传统数据库很大一部分的市场份额,但是从技术上能不能去颠覆,还有待进一步观察和研究。

钛资本研究院观察 

数据库的研发与应用场景密切相关。今天,中国数字经济规模已经达到32万亿,相当于GDP的1/3,涌现了大量新零售、新金融、新制造等数字业务场景,而这些场景从创新程度、创新规模和用户体量来看,都居世界前列。

随着消费互联网向产业互联网的推进,消费互联网的数据库技术也在向产业和企业互联网场景演化,特别是工业互联网、车联网、物联网等大规模产业和企业互联网,都为数据库创新提供了前所未有的机遇。

近期又逢《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》发布,其中第六部分是“加快培育数据要素市场”,这标志着中央给“数据”以新的历史定位,不再视其为信息化的产物,而是上升到了生产要素的重要地位。

数据要素的新定位,将为中国数据库技术发展释放政策红利,数据库与数据分析将是长期看好的创业投资领域。

钛媒体作者介绍:钛资本是专注于企业级科技的投资银行和管理咨询服务平台。微信公号:tmtcapital】

本文系作者钛资本研究院授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

”支持原创,赞赏一下“
钛粉20377 钛粉88981 钛粉88609 钛粉22894 钛粉46303 钛粉32504
366人已赞赏 >
366换成打赏总人数366人赞赏钛媒体文章
关闭弹窗

挺钛度,加点码!

  • ¥ 5
  • ¥ 10
  • ¥ 20
  • ¥ 50
  • ¥ 100

支付方式

确认支付
关闭弹窗

支付

支付金额:¥6

关闭弹窗
sussess

赞赏金额:¥ 6

赞赏时间:2020.02.11 17:32

关闭弹窗 关闭弹窗

Oh! no

您是否确认要删除该条评论吗?

注册邮箱未验证

我们已向下方邮箱发送了验证邮件,请查收并按提示验证您的邮箱。

如果您没有收到邮件,请留意垃圾邮件箱。

更换邮箱

您当前使用的邮箱可能无法接收验证邮件,建议您更换邮箱

账号合并

经检测,你是“钛媒体”和“商业价值”的注册用户。现在,我们对两个产品因进行整合,需要您选择一个账号用来登录。无论您选择哪个账号,两个账号的原有信息都会合并在一起。对于给您造成的不便,我们深感歉意。