Storage

加速Apache Hadoop 3.基于Flash存储的发行生态系统

By Tony Ansley - 2018-07-31

随着越来越多的企业依赖于大数据分析,我们看到越来越多的开源软件 Apache™ Hadoop® 平台部署. Of course, 大数据意味着大量的存储空间 and, 作为主要的固态存储(SSD)提供商, 美光对企业闪存能够给这种环境带来的优势非常感兴趣. To date, 大多数大数据解决方案都是围绕传统硬盘驱动器(hdd)构建的,因为它们比高性能的ssd具有传统的成本优势. 额外的速度, efficiency, 由于大多数分析都是批处理的,因此人们认为闪存的密度和缩短的延迟对大数据分析没有价值.

Recently, however, 公司正在看到实时分析的价值,它可以更快地获得见解. 实现这些实时分析用例的好处, 解决方案需要更快的存储——无论是在延迟时间还是每秒事务数(IOPS)方面——例如非易失性内存Express™(NVMe™)ssd和SATA ssd.

我们的联盟合作伙伴Hortonworks®是领先的Hadoop平台实施者,用于管理大型数据存储库和执行深度分析,使您能够从数据中获得可操作的情报. Hortonworks和美光认为,固态硬盘可以为数据分析基础设施提供真正的价值.

我们已经开始使用Apache Hadoop 3进行一系列的性能分析.1基于分布,特别是在Hortonworks数据平台(HDP®3.0)与美光固态硬盘在不同的角色. 我们与Hortonworks共同发表了我们的研究结果 在2018年数据工业峰会的会议上. 在预生产环境中, 我们的Micron IT团队发现,需要设置的节点更少,需要软件许可的节点更少,从而带来TCO的好处.

Apache Hadoop 1


Hadoop缓存中的Flash

数据科学家在寻求更快的回答时间时遇到的最大挑战之一与CPU或GPU无关, 而是为那些cpu / gpu提供足够快的数据,使这些昂贵的资源得到充分利用. 在IT界,我们称之为CPU空闲时间,这是实时大数据分析的祸根. 这就是在现有的大数据部署中明智地、经济高效地添加ssd可以提供帮助的地方.

我们对HDP 3性能分析的目标之一.使用Micron ssd是为了减少CPU空闲时间,从而减少应答时间. 我们很高兴地宣布我们进行的测试的初步结果.

为了进行这些测试,Hortonworks让我们提前使用了它的新HDP 3.Hive™数据库基于HDFS/YARN解决方案,部署在两个独立的4节点集群上. 集群的配置如下表所示, 但主要的配置差异是为每个节点引入了单个Micron 9200 MAX NVMe SSD,作为hdd的YARN缓存. 对于集群,我们的数据库大小与内存比率的目标是2:1,我们的总数据库大小为2TB,除去操作系统开销后,我们的集群总可用内存为822GB.

Apache Hadoop 2

我们执行的测试包括执行事务处理性能委员会(Transaction Processing Performance Council)的TPC-DS基准测试中使用的99个查询中的94个查询,并使用仅使用hdd作为基线的配置测量每个集群配置上每个查询的完成时间,以便与nvme缓存配置进行比较. 我们可以有足够的信心完成94个基准查询来发布结果. 这可能是由于我们使用的是早期测试版的Hortonworks HDP 3.0 software. Overall, 执行94个查询的结果导致ssd缓存配置完成查询1.比纯硬盘配置快72倍.

The chart below illustrates the benefits for the six queries with the biggest improvements (shorter bars are better results); in the interest of providing complete information, 在使用基于ssd的YARN缓存时,94个查询中有3个运行速度较慢, 最坏的是3.慢6%.

Apache Hadoop 3


TPC-DS基准测试对15K HDD和NVMe SSD的六个查询

最后应该提出两点意见. 首先,我们的测试是使用15K RPM的SAS硬盘执行的. 这些驱动器通常不是大数据解决方案中使用的主硬盘类型,通常使用7.2K RPM SATA硬盘. For this reason, 我们相信在现实世界中, 引入NVMe ssd作为YARN缓存的加速影响甚至更大. 其次,我们仍处于发现的早期阶段. 我们来看看Apache Hadoop 3中的其他组件.基于1的分销生态系统, 在存储系统的战略角色中使用ssd可能会受益于其他候选对象.

更有趣的是,使用SSD作为YARN缓存对CPU空闲时间的影响是这些性能提升的主要原因. 如下图所示,添加单个NVMe SSD可以将CPU等待时间减少到零. CPU不再是限制因素.

Apache Hadoop 4


15K硬盘与NVMe固态硬盘的CPU等待时间

引入固态硬盘有一个明显的优势, 即使在一个有限的角色,如YARN缓存, 融入你的大数据解决方案. 在可预见的未来,hdd仍将是主要的存储技术, 在解决方案中的战略角色中使用ssd可以提供一种经济有效的方式来获得更快的答案,并允许您做出更及时的决策,从而直接影响您的业务. 我们期待着继续与Hortonworks合作,评估ssd在Hadoop生态系统中扮演的更多角色.

Amit Gattani

Tony Ansley

Tony在服务器架构和存储技术及其在满足客户业务和技术需求方面的应用方面担任了34年的技术领导者. 他喜欢飙车,喜欢旅行,喜欢和家人在一起——不一定是这个顺序.

+