欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

对话杨传辉:国产数据库新战绩背面,OceanBase坚持自研的初心与决心

发布时间:2022-08-12 文章来源:本站  浏览次数:1608

国产数据库正在蓬勃开展,假势分布式技能优势,冲进了世界巨子的地盘。

作为管理数据的根底软件,数据库掌握着企业的命脉,牵一发而动全身,尤其是在中心事务中,稍有差错便可能造成无可挽回的丢失。跟着国产化呼声渐涨,这门长期被海外巨子垄断的要害生意,已成为本土企业必然收复的“失地”。

就在近来,全球威望IT咨询机构Forrester发布的2022年度Translytical方向的数据渠道厂商选型陈述,国产自研原生分布式数据库OceanBase赫然在列。它也是全球唯三具有完成Forrester定义的分布式数据库细分功用(单云、混合云、多云)全掩盖才干的厂商。

OceanBase钻研了长达12年的混合事务和剖析处理领域,如今正在数据库职业热度高涨。

凭仗能承载高并发事务实时处理与大规模数据实时事务决议计划的才干,HTAP有望为企业更高效地发掘数据价值,大幅下降总本钱。跟着国内相应需求蓬勃而生,投入HTAP方向的数据库从星星之火渐成燎原之势。

作为创始成员之一,OceanBase CTO杨传辉主导了历代数据库架构设计和技能研制,使其挺过支付宝买卖体系、“双11”等极致并发量场景的检测,服务超越400家金融、能源、交通等职业客户,并主导OceanBase成为仅有一家在世界数据库基准测验TPC-C和TPC-H上都打破世界记录的国产原生分布式数据库。

在与咱们交流的进程中,杨传辉对HTAP数据库如数家珍,深化解读了HTAP的中心技能、研制难点、落地应战,并为企业怎样做出适合事务的数据库架构挑选提供了一些参阅建议。除此之外,作为深耕数据库逾十年的专家,他也共享了对国产数据库开展机会和中心瓶颈的观察。

一、什么是真实的HTAP?HTAP≠OLTP+OLAP

全国大势,合久必分,分久必合,数据库的开展亦是如此。

早期数据库大包大揽,到上世纪末,因使用场景日趋丰富,逐步分化成OLTP和OLAP两大类型,前者主管买卖,后者专攻剖析。如今,这两大功用又走向交融。

跟着大数据浪潮奔涌而至,数据量急剧胀大,许多事务场景需应对不断增长的实时事务处理和剖析需求。一致支撑两类功用的HTAP数据库横空出世,在企业级商场风头渐盛。

HTAP有两大显著的优势:低本钱、低延时。这不难理解,一套一起能做两件事的体系,比较两套体系具有更高的性价比;并且省去了繁琐费时的ETL进程,下降延时,更好支撑实时剖析。

一时间,各路数据库都开端贴上“HTAP”的标签,云核算大厂也纷纷跃跃欲试。

但关于企业来说,给数据库上新,不免要支付试错本钱,因而弄清楚HTAP究竟怎样用、怎样选型、重点考量哪些要素至为要害。这就触及一个数据库热门话题——什么是真实的HTAP?

杨传辉的答案是:在高功能OLTP数据库的根底上扩展OLAP的才干,能很好支撑实时剖析。

世界数据库巨子Oracle、微软SQL Server以及国产分布式数据库龙头OceanBase都选用这种做法,与前两者不同的是,OceanBase底层是原生分布式架构,可扩展性强,因而能处理更大的数据量。

也有不少创企走的道路是在OLAP根底上引进实时写入,形成一个实时数据仓库。走这种道路,假如不具有OLTP中心事务阅历,可能很难做到支撑完整的事物处理才干。杨传辉解说说,业界有些“HTAP产品”的事务处理功能较差,不是HTAP的问题,而是其产品设计完成的问题。

无论走哪种HTAP道路,都应保证一个前提——一套体系,一份数据

首先,将两套体系简略叠加、缝合的计划,不只会导致本钱上升、存在固有延时,并且两套体系语法会有差别,很难精密操控数据流通和数据一致性问题,到后续升级更会暴露出各种问题,约束企业级使用的开展。

其次,一些选用两份数据的计划,通过ETL机制将OLTP的数据拉到OLAP体系中。这会存在天然的设计缺陷,由于避不开数据转移,无论是性价比还是延迟都无法做到优。

这也是为什么从一开端,OceanBase团队就决定做根据“一个体系,一份数据”的HTAP数据库,以将性价比做到极致。

杨传辉说,一份数据是从用户角度看的,实际履行中,只需能在满足HTAP处理需求数据的前提下大程度下降冗余,多个副本或许多种形状都可以被认为是“一份数据”。

为了让OLTP具有大数据量OLAP的才干,HTAP需引进原生分布式架构和低本钱存储引擎,支撑 OLTP与OLAP间的资源隔离、复杂查询和大数据量查询,以及OLAP的数据开发和建模才干。

须注意的是,鱼和熊掌不可兼得,真实的HTAP体系也不是全能的。

理论上,它不会献身剖析才干。但由于工程复杂度和产品老练度问题,根据OLTP研制的HTAP数据库,其OLAP才干会弱于专门的OLAP体系,因而更适合OLTPOLTP与实时OLAP混合负载处理场景,不适合离线数据仓库或大数据无结构化数据处理场景。

杨传辉建议,企业开端做新事务,或是已有事务遇到一些传统数据库计划难以处理的痛点时,或许正是切入HTAP的好时机。

那么企业挑选HTAP时,怎样判别这个数据库计划,值不值得投入试错本钱,能不能未来长期用下去,为事务带来价值?

他给出了一些参阅维度:首先是看落地阅历,在标杆客户中心事务场景中完成规模使用的HTAP计划,阐明满足老练安稳;还要关注中心才干,比方在公开基准测验benchmark中的功能体现怎样,生态东西是否齐备好用。假如未来事务将开展至较大规模,那么企业还需考虑HTAP选用的技能架构是否存在缺陷、安稳性和容灾才干怎样样、能否完成事务的佳性价比等。

从这两个角度来看,OceanBase俨然是不可多得的挑选。一方面,它是金融场景中受欢迎的国产分布式数据库,如今已堆集涵盖银行、能源、电力、社保等职业的400多个外部企业客户,其金融级容灾、老练安稳性现已得到充沛验证;另一方面,它在曩昔三年接连打破世界在线事务处理基准测验TPC-C和数据剖析型基准测验TPC-H的世界纪录,证明了本身的技能领先性。

获得这些成就的背面,作为分布式HTAP数据库的先行者,自2010年诞生以来,OceanBase一直在摸着石头过河。

二、12年磨一剑,明年炼出HTAP老练体

在HTAP这条路上,国产自研原生分布式数据库OceanBase现已努力了12年。

杨传辉认为,坚持自研落地中心事务场景,是OceanBase能将同行甩在身后的“杀手锏”。

只有自主研制,才干彻底掌握数据库的内核,真实做出“一套体系,一份数据”的计划。因而OceanBase的每一行代码都由其团队自主编写。其经年累月在各种中心事务场景中持续沉积的know-how才干,也为OceanBase构筑了益发巩固的技能及商场竞争壁垒。

在杨传辉看来,其他企业要想仿照OceanBase的道路并追平其才干,会存在一个时间差。

但关于许多国产数据库来说,它们乃至连“仿照”的条件都不具有——有多少像支付宝买卖、双11这样要害又具有超高并发应战的事务,敢让初出茅庐、未经很多实践检验的新式数据库试练?

回想OceanBase曩昔12年的历练,用杨传辉的话来说,简直是“步步难关”。

OceanBase研制分布式HTAP数据库,是一个从0到1的进程,一开端底子没有事务。就在团队焦思苦虑之际,2011年,淘宝收藏夹首先建议落地邀请——数百万、数千万用户一起读取商品信息,导致原有数据库动不动就崩盘,他们需求新的数据库取而代之。所以,OceanBase团队立即为其量身定制了一个特殊架构,第一次证明了其数据库的落地价值。

此刻OceanBase团队仍顶着巨大的压力。淘宝收藏夹毕竟不算中心事务,对数据库的要求没那么高,要想长远走下去,OceanBase必须进入中心事务场景,并饱尝住严苛的检测。

直到2012年11月,OceanBase获得了一个新的机会——具有巨大事务数据量、高并发量并对毛病简直零忍受的支付宝打算“去O”(替换Oracle数据库)了。只需OceanBase能接过这个重担,尔后它的金融事务之路,将是可预见的畅通。

通过两年的历练,OceanBase在2014年终于迎来中心事务场景的大考——替换支付宝买卖体系,扛住全国大规模流量洪峰“双11”的压力,做到整个体系的“丝般顺滑”。

成果,OceanBase一战成名。

尔后就是坦途一片:从蚂蚁集团内部中心事务全面使用,到第一次被外部客户选用,从支撑银行、保险、证券等金融事务,到进入政府、公共事业、国家电网等更多非金融事务的中心偏买卖事务场景,OceanBase的落地之路越走越宽。

“做数据库是要靠堆集的。”杨传辉说,“这是一切其他国产数据库都拿不到的、无价的阅历,对OceanBase今天可以成为分布式数据库领域的引领者,起到了重要的效果。”

从0起步到服务400多个外部客户,这些阅历起到了滚雪球般的正向循环,有了越来越多的客户背书后,OceanBase获得了更多实战历练的土壤,其阅历融入到数据库产品的迭代中,使其进一步拉大与同行在功能、安稳性方面的距离。

杨传辉告诉智东西,曩昔半年,OceanBase又获得一些新的发展,在研制新版本方面进一步优化了剖析、资源隔离等才干,在落地方面也收获更多新的职业要害客户。“到明年年底,差不多咱们就能有HTAP的老练体了。

三、国产数据库当打之年,奔赴分布式星斗大海

作为“卡脖子”的要害根底软件赛道,国产数据库的兴起已是必然。在杨传辉看来,分布式数据库正承载着其中大的“弯道超车”机会。

在集中式数据库赛道,微软、Oracle等数据库巨子宝刀未老,开源数据库亦气势如虹,留给国产数据库玩家的商场空间所剩无几。但在分布式数据库赛道,国内外企业起点距离附近,乃至国内面临的事务场景要求比海外更为严苛,而越是具有应战的事,也往往能带来倍速的成长。

“曾经集中式做得很好,老练安稳,但这有时候也会成为他们做下一代技能的包袱。”杨传辉说,当分布式成为下一代数据库的干流方向,那么国产数据库厂商的优势就会体现出来。

他谈道,包含OceanBase在内,国产分布式数据库现已由外围场地迈入中心事务场景其中OceanBase是在中心买卖场景使用多的。在处理一些小数据量问题中,OceanBase也现已能做到跟MySQL、Oracle差不多的性价比。

曾经企业可能更多将分布式数据库用在边际场景作为弥补,但近年来,OceanBase现已做到将分布式HTAP用在不同职业的要害客户中心事务场景中,并安稳上线、持续运行。杨传辉信任:“分布式数据库未来商场会特别大,简直一切的客户都会优先挑选分布式。”

跟着更多企业走向数字化转型、对实时性发生更高要求,在云原生与分布式叠加趋势的推动下,杨传辉对分布式HTAP的未来预期非常乐观。

他观察到这两年分布式数据库的用户认可度越来越高,但与Oracle、MySQL显然还有很大距离。“比方MySQL Oracle的用户数可能是百万级、千万级,分布式可能是几百级、几千级,这不是一个量级的。”

因而,当时分布式数据库的受认可程度还有待提升,HTAP仍处于开展初期,中心应战就是生态问题。这毕竟是个新式技能道路,很多企业或开发者可能对此感到生疏,需求通过开源、社区运营、高校协作等方式来持续培养更多的用户习惯。国产分布式数据库产品,还需处理言语、文档等问题。

也正因而,OceanBase在上一年6月宣告开源,一次性将包含300万行代码的全部中心才干开放出来,让更多人成为分布式HTAP数据库的开发者。他们还将持续在公众号上宣布解读HTAP技能的系列文章,共享其现已完成的HTAP技能计划和场景价值。“咱们有自信OceanBase在分布式职业里的技能遥遥领先,咱们需求的是这个职业变得更好。”杨传辉说。

他信任,跟着分布式数据库被越来越多的人选用,它又能处理单机问题,未来分布式数据库会在绝大部分场景中取代集中式数据库,他期望未来企业“选数据库就选分布式数据库,选分布式数据库就优先选OceanBase”。

结语:路虽远,行则将至

做国产数据库,是一件需求情怀,也需求敬畏之心的事。OceanBase能挥洒自如地支撑更多职业客户的中心买卖事务,绝不是仅靠技能优势拉开距离,锚定分布式HTAP赛道、假势移动互联网年代浪潮、持续堆集职业know-how等多重要素叠加,才造就了它今天的阶段性成功。

现阶段,国产数据库正步入快车道,在大数据及人工智能年代大展拳脚。据中国信通院测算,2020年中国数据库商场规模约为241亿元,到2025年估计将增至688亿元,商场空间巨大。

但风口之中,不免泥沙俱下,这既需求真实有中心技能的企业在混战中保持定力、坚持自主研制与创新,也需求业界拟定更严格的把关标准,为真实有实力的国产数据库厂商保驾护航。

“我觉得一切国产数据库厂商应追求的,是去做一些代替中心体系的工作,”在杨传辉眼中,这可能是难的、有社会含义的事,但其商业价值不一定高,由于代替中心技能的投入特别大,与代替一个外围体系不是一个量级。

”但是这件工作不能说等老练了再去做,永久都不会有老练的那天,”杨传辉的语调骤然举高,“就应该跟一些有情怀的企业合在一起,赶忙把这个工作给干出来。”

上一条:继向日葵后,todesk...

下一条:元国际实在狠人物!英伟达...