美光加速Hadoop和其他大数据解决方案

Overview

大数据是一件大事. 我们是生成, 从新的来源以前所未有的速度获取和管理大量的新数据. Our 虚拟化环境, 流媒体服务, 基于云的基础设施和分布式工作人员希望从这些数据中获得更多. Now. Historically, 数据科学家面临的主要挑战之一是为cpu提供足够快的数据,以减少空闲时间,并充分利用这些昂贵的资源. CPU空闲时间不仅效率低下,而且不利于获得实时的、可操作的结果. 您的组织是否正在使用开源Hadoop®, 私人持有的喷管和钟, Cassandra, 或其他数据库, 实现实时分析的好处需要比硬盘驱动器(hdd)更快的存储.

Hadoop的例子

Micron的Hadoop测试环境使用一个运行KVM的节点来虚拟化运行NameNode的服务器, 二次NameNode, 资源管理器, Zookeeper, 蜂巢和安巴里服务器. datanode是4个服务器. 网络交换机是运行Cumulus Linux 3的48端口10GbE交换机.4.2.

Hortonworks

Hadoop集群软件由HDP 3组成.0 Hive database on HDFS/YARN部署在两个独立的四节点集群上. 这两个集群的不同之处仅在于,一个集群使用一组15K SAS HDD,而第二个集群使用相同的HDD配置,并向每个节点添加一个Micron 9200MAX NVMe SSD,并将YARN缓存重定向为使用NVMe SSD.

确保存储I/O的真实测量, 数据库大小与内存的比率约为2比1 (2TB的数据和822GB的集群内存(在操作系统开销之后)). 结果是:一个更快、更高效的Hadoop数据库.

美光制造IT Hadoop案例研究

在我们的测试中,出色的结果使得Micron IT将Hadoop部署在我们自己的ssd上,运行在我们用于制造分析的真实存储集群中, 以最小的成本获得更高效的性能. Read the blog here.

Hortonworks

Resources

+