我是美光科技的首席存储解决方案工程师Dennis Lattka。这个头衔的真实意义是,我要致力于确认怎么运用闪存存储改进作业负载运用的功用和成果。为此,我决议对大数据生态体系中最常用的分布式音讯传递体系之一的Apache Kafka进行评价,测验怎么以最佳方法将美光固态存储运用于 Apache Kafka,以及将发生怎样的收益。
Apache Kafka介绍
如果您不熟悉Apache Kafka,能够阅览http://kafka.apache.org/网站,了解一些快速入门常识。
经过对所触及的各种资源(即 CPU、内存、磁盘活动和网络)进行监控,我发现首要的瓶颈要素依次为磁盘和网络。
全部取决于吞吐量
经过 Apache Kafka我发现,吞吐量决议全部。Kafka 开发人员在将写入数据直接传递到内核页面缓存方面做得十分超卓,最大极限地减少了与 I/O 相关的问题。可是,不管这项开发功用怎么超卓,I/O 终究仍会转化为对 Kafka 分区(主题日志文件)的接连写入。因而所运用的磁盘的吞吐量越高,功用进步起伏就会越大。
在弄清楚了怎么以最佳方法测验 Apache Kafka 以及运用哪些参数作用最好之后,我运用其内置的发生器测验脚本进行了一次简略的测验。3 个发生器共向一个 Kafka 署理发送了 6 亿条 100 字节的音讯。
测验包含以下内容:(没有进行调整,仅选用默许装备。)
- 一共发生了 600 个主题。
- 为每个发生器分配了 200 个特定于该发生器的主题。
- 每个发生器为每个主题创建了 100 万条音讯。
- 选用的音讯巨细为每条音讯 100 字节。
运用的硬件:
- 每个服务器装备 1 个署理和 3 个发生器,选用相同装备。
- 两个英特尔(R)至强(R) CPU E5-2690 v3 @ 2.60GHz 处理器。
- 384GB 内存
- 两个固定在 ALB 形式的 10Gb 网卡。
运用 6TB 7.2k 硬盘、美光5100 ECO 1920GB 固态硬盘和美光9100 Pro 3.2TB NVMe硬盘进行了比照。
在每次测验中,Apache Kafka 署理分区都坐落进行测验的硬盘上。
成果如下:
从上表能够看出,吞吐量越高,每秒的 I/O 就越高,这关于 Apache Kafka 意味着每秒能够处理更多数量的接连音讯(显现单位为 MB/s)。
定论
在 Apache Kafka 装备中选用吞吐量更高的磁盘设备(如美光5100 系列固态硬盘或美光 NVMe 固态硬盘)将明显进步 Apache Kafka 的功用。
了解更多美光科技固态硬盘产品为企业IT带来的超强动力,请点击阅览原文,登录美光科技官网检查。