聊聊Greenplum的开源(2) 原作者:李元佳 创作时间:2015-10-31 00:02:04+08 |
doudou586 发布于2015-11-01 00:02:04 评论: 2 浏览: 15926 顶: 1285 踩: 1399 |
小广告:今年的Postgres大会在北京举行,想了解更多这方面的信息,可以报名参加我们的大会,http://postgres2015.eventdove.com/
继续打开greenplum开源的事聊聊。
Pivotal到底想怎么玩?在Pivotal策定的ODP联盟的设想里面,不赚钱的Hadoop(MR、HDFS、YARN、Ambari)大家都不做了,而是让Hortonworks去开发,联盟成员只用它提供的内核即可,在Hadoop社区与Cloudera的仗,交由Hortonworks去打。但是Pivotal的HD发行版还继续做,还继续卖Pivotal HD的商业许可,它基于Hortonworks提供的内核做企业增值功能,人少了,但是钱还要继续赚!Pivotal的打算是,既然Hadoop秀不出花,就把力量投入到自己最擅长的MPP数据库和SQL on Hadoop, 它来提供这两个部件集成到Pivotal HD里面,整体来卖,只有它战胜其他MPP对手,SQL on hadoop的对手,才能产生差异化竞争力,市场才有可能突围(https://gigaom.com/2015/02/17/pivotal-open-sources-its-hadoop-and-greenplum-tech-and-then-some)!目标很明确,就是通过数据(数据、数据、数据,总要事情说三遍)这层的差异化提高大数据整体解决方案的市场占有率,从IBM和HP还有其他对手抢份额,把其现在大数据解决方案的销售从千万美金级别,提高到数亿级别。
“谁是我们的敌人,谁是我们的朋友,这个是革命的首要问题”。Pivotal两个方向的对手已经明确,战胜MPP的其余对手(HP的Verica、IBM的Neteeza、微软的PDW)和SQL On Hadoop 的对手(IBM big SQL, Presto,Impala, Microsoft Polybase)是最重要的战略目标,Cloudera和MapR交由盟军Hortonworks去对付。年初的已有多种坊间传言Pivotal开始把Hadoop的研发力量裁掉,尽管官方强调是研发力量的重新部署,但是从其最近的人员招聘,Greenplum和数据相关的职位很多(http://pivotal.io/careers),去Hadoop重数据的痕迹明显,加上Greenplum的开源,更加坐实了大数据的战略重心押宝greenplum和hwaq已经开始实际部署。
从商业的诉求到战略调整,到战略目标的分解,到人力的重新部署,到联盟成立和代码开源,思路清晰,行动果断。即使对手调整战略,Pivotal已经占了两三年的先机,在开源时代,这样的先手对对手而言有可能就是致命的一击。
但其成功取决于几个关键因素。
首先是到底MPP数据库和SQLon Hadoop这块有多重要,能否真正成为撬动市场的砝码?
大概在2008开始,整个MPP市场开始洗牌,传统的数据库厂商大厂掀起收购的热潮,Datallegro(Microsoft, 2008),Neteeza(IBM, 2010), Greenplum(EMC,2010), Aster data(Teradata, 2011), Vertica(hp, 2011), 亚马逊在2011年也投资ParAccel并打包成亚马逊平台的Redshift,到2011年为止MPP数据库的市场洗牌尘埃落定。MPP数据库从挑战者转身变成了传统厂商的在低端领域的护城河,保护150多亿美金的EDW市场不受蚕食,所以传统厂商资源这块的资源投入有限,在这种厂商的扼杀里面,这个市场失去活力,从其出现经过十年,其市场整个市场没有太大发展,基本维持几亿美金(相信很多管理层会对这样的投资失望),技术上也不见的有太大革新。在大数据的业界看来,这是老气横秋的旧世界,成本贵(对于开源而言)、开发缓慢、缺乏创新、封闭的一个市场。
但是,其依然还有不可替代的优势,最主要就是处理的性能和效率以及SQL的能力。在处理效率方面,在有些情况下Hadoop要用10个机柜才能比得上MPP数据库一个机柜的结构化数据分析的性能,在对复杂数据分析的情形下,MPP数据库依然保持绝对优势,而数据价值的变现更多的还是需要通过这种高级的数据分析才能产生价值,这个显然是大数据的一个价值控制点;另外一个就是SQL能力,关系型数据库成功的两大基石,一个是事务能力另外一个就是SQL能力,程序员不需要关心数据存储和访问的细节,只关心访问的逻辑,这对编程的效率是至关重要,市场也有大量这种编程技能的人,MPP DB大多数基于Postgres这样已经非常成熟的关系型数据库开发,所以其SQL能力强大。虽然Hadoop也开始在其上面开发Hive及Presto等开源的SQLon Hadoop这样的组件解决这方面的问题,成熟高性能的SQL引擎没有十多二十年的开发积累是不可能做到,所以开源的性能及功能可想而知,所以IBM、Microsoft就把其数据库的SQL引擎剥离出来直接嫁接在Hadoop上面,Pivotal则把Greenplum的SQL引擎做成HAWQ,作为SQL onHadoop解决方案,但是这种方式还是解决不了处理效率的问题。所以现在Hadoop + MPP DB +SQL on Hadoop还是需要配套合作,尤其是未来可能会有更多的基于SQL的负载(workload)与应用会跑在大数据平台上,MPP的能力只会变得更加重要。虽然有很多的争论,认为SQL on Hadoop最终会替代MPP数据库(https://ofirm.wordpress.com/2013/07/28/the-end-of-the-classical-mpp-databases-era/),所以Pivotal在Greenplum和HAWQ同时下注,无论哪方胜出,对其来说无关重要。
由此可见,如果能够在MPP数据库和SQL on Hadoop上占有绝对优势,客户的天平还是会倾向于Pivotal的大数据解决方案。
另外一个就是Pivotal是否有能力玩转开源社区。现在Greenplum的开源是复杂的成熟产品闭源转开源,这个是一个难度很大的事情,新的开源社区还好说,大家都是空白,联盟的合作伙伴一起开始讨论、设计、开发,只要架构的模块化做得好,社区发展是加速度的指数式发展,可以在短时间内迅速成为庞大的生态。成熟产品就是另外一种情况,里面有几百万行代码,而且耦合度极高,读懂代码都需要一两年,其他人如何参与进来?如果没有其他人参与进来,缺乏剧烈的链式反应,需要很长周期才能长成一个庞大的生态,那想在短期内取得先手优势的胜算有多大?从目前的开源社区运作来看,基本是比较原始的状态,没有社区的章程、管理团队的结构、发展路标,更不用说如何让合作伙伴参与,显然是比较仓促,很多东西没有想得特别清楚,采取try-and-error的策略。前面的路依然漫长,其到底如何运作会是业界关注的点。
Greenplum的开源无疑会对目前的MPP数据库市场照成巨大的冲击。无论其开源社区的经营是否成功,其打开了MPP数据库市场的潘多拉之盒,而且开源之路已经不可逆转,市场的商业模式完全被颠覆,靠销售license估计已经不太可能,MPP数据库已经成为开源化的市场。而且如果其采用开源模式开发,创新和开发周期一定是其他竞争对手不可比拟的,这一两年是整个MPP数据库市场洗牌最关键的时期,如果任greenplum抢占免费的大数据市场,公有云厂商在云服务提供greenplum的服务,greenplum的人才指数式成长,greenplum成为事实标准,MPP数据库的粘性比Hadoop大不少,其他MPP数据库错过这个关键时期的话,闭源产品卖也不是、关也不是、开源也不是,正所谓进退失据。