注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

钱五哥の163空间

记录俺的生活和工作历程

 
 
 

日志

 
 
关于我

从事网络通信软件和开发管理开发多年,了解各类软件系统的架构、设计、开发和测试以及相应的开发方法。工作之余,喜欢研究一些自己感兴趣的事情,包括写写小程序、做做木工、看看连续剧、读读军事杂志、养鱼种花等等

网易考拉推荐

Hadoop Summit 2013 Day2:信息大爆炸  

2013-06-27 19:10:48|  分类: ICT行业 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

今天参加了3个keynotes,42个session中的8个,和一大堆厂商讨论技术,真是信息大爆炸的一天。

IMG_1181

Hadoop从诞生到今年已经有7个年头,今年出现了很多新的变化:

1、Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力(Gartner)。几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入,Teradata还公开展示了一个一体机;另一方面创业型Hadoop公司层出不穷,这次看到的几个是Sqrrl、Wandisco、GridGain、InMobi等等,都推出了开源的或者商用的软件。

IMG_1140

2、Hadoop生态系统丰富多彩,但是核心已经被Cloudera、HortonWorks牢牢掌控,基本上没有撼动之可能。今年Hortonworks的宣传是100% open source,Cloudera只好干着急,谁叫他不开放Cloudera Enterprise Manager的源代码呢?Hortonworks介绍Ambari的时候,会场至少5个Cloudera的工程师在仔细聆听,有个小伙不停地在iPad上面速记,竞争可见一斑,个人估计,Cloudera早晚将Enterprise Manager开源。Hortonworks目前Ambari的committer是20+,Contributor 50+,后一个数字可能有些水,但是第一个是没有问题的。目前每天有update,1.25版本比1.0x版本明显好用了。其他大小厂商的生存之道就是搞插件,如Wandisco、vmware、mellanox、GridGain,而且插件均是不用修改内核的外挂 - 这些厂商是没有能力动内核的,持续投入可能会有一些作用,如vmware,但是一线hadoop厂商是绝不会松手的。

?

3、Hadoop 2.0转型基本上无可阻挡。Hortonworks的VPArun在介绍Tez的时候,给出了很多有趣的ppt,主旨就是一个:MapReduce已经是昨日黄花,Yarn将是未来并行计算的基础设施。我自己还没有使用Yarn,但是Hortonworks已经围绕Yarn开发了很多工具,尤其是Tez,这个玩意可以提升查询计划的执行时间,PIG和Hive将被改写并重装上阵。Hortonworks虽然没有搞出来Impala,但是从更底层的技术上包围Impala,两个老大的布局和较量始终没有停止。

IMG_1219

IMG_1245

4、SQL over Hadoop是一个重要的技术趋势。去年Hadoop World时,MPP还吹嘘自己如何牛X。但是Google发布了Dremel和PowerDrill,EMC搞出来HAWQ,Cloudera搞出来Impala之后,所有的MPP都开始反思自己的技术路线。和Parccel技术人员(感觉是售前)讨论了一下,她找出一张卡片说Parccel速度是Hive的100X,领先Impala10年。我感觉这个说话很快就会失灵,首先是Hive的优化一直没有停止,Hortonworks搞出来Tez、Stinger(与Facebook合作)。虽然MPP领先Hadoop很多年,根据80:20原则,如果hadoopSQL只做用户需要的20%特性,那么这个差距最多2年,2年内,hadoopSQL将在部分领域超越MPP。MPP企业的出路就是学习HAWQ。列存储也是推陈出新,近期主要是ORC(MS和Hortonworks合作)、Parquet(Twitter和Cloudera合作),有木有看出来两个巨头PK的身影?有木有看到抱团PK?这些技术在测试中均显示出很大的优势

IMG_1269

IMG_1263

IMG_1268

?

5、IT和开源单位合作广泛。这个不仅仅存在IT厂商和开源之间,实际上开源之间也在密切合作。不太清楚合作的内部信息,但是基本上有两种模式:产品/软件交叉集成(含管理系统集成);合作开发和推广。在技术方面就要求软件有很好的架构,提供开放的接口,这一点Ambari的设计和俺对HT的要求一模一样,可以俺未能如愿,而Amabri已经开发了好几个版本。

?

6、技术上看,大数据和云的整合也是一个选项(注意,不是趋势,而是选项)。今年新增了OpenStack相关议题,一些集成商和厂商也提出了云上Hadoop的适用场景。这个并不是适用于所有人,但是部分用户可以因此获益。Netflix是一个典型的例子,他们的实例都在AWS上面,显然他们的hadoop是基于虚拟机的,和一个Netflix小伙子(日本人)交流,他们大约有2000个虚拟实例,基于EMR,并开发了Gennie管理系统。

IMG_1291

?

要睡觉了,4小时后还有一场信息大爆炸!贴一张在宾馆小院乘凉,看到的小松鼠吧,也就距离我5米不到,真要赞一声美帝的环境!

?

IMG_1302

?

相关信息:

  1. Hadoop Summit 2013 Day1:BOF&Meetup
  评论这张
 
阅读(102)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017