QLC SSD は 2U ストレージ サーバーで 175GB/秒を実現
約 2 年前、私たちは 2U シャーシに 24 個の NVMe ベイとツイン コンピューティング ノードを備えたバイキング エンタープライズ ソリューション (VES) ストレージ サーバーのレビューを完了しました。 VES は、市場で最も革新的なストレージ サーバー システムを開発している大手 OEM です。 最近、シングルポートの NVMe ドライブ向けに調整されたバージョンのストレージ サーバーを実際に触る機会がありました。 当然のことながら、24 台の Solidigm P5316 30.72TB QLC SSD を取り出してサーバーにドロップし、約 750TB の RAW フラッシュで何ができるかを確認するために待機しました。
約 2 年前、私たちは 2U シャーシに 24 個の NVMe ベイとツイン コンピューティング ノードを備えたバイキング エンタープライズ ソリューション (VES) ストレージ サーバーのレビューを完了しました。 VES は、市場で最も革新的なストレージ サーバー システムを開発している大手 OEM です。 最近、シングルポートの NVMe ドライブ向けに調整されたバージョンのストレージ サーバーを実際に触る機会がありました。 当然のことながら、24 台の Solidigm P5316 30.72TB QLC SSD を取り出してサーバーにドロップし、約 750TB の RAW フラッシュで何ができるかを確認するために待機しました。
OEM 業務を超えて、VES はさまざまな HPC およびハイパースケールの顧客にも販売しています。 従来のエンタープライズ領域の外でストレージ サーバーのパフォーマンスを考慮する場合、大量のデータ フットプリントを持つ組織ではストレージの構成方法が異なるため、これは重要な考慮事項です。
これらのサーバーが対象とするワークロードの多くは、パフォーマンスが重要であり、データの可用性がそれほど重要ではない最新の分析および AI アプリケーションであると考えられます。 そのため、これらの構成は、データ サービスと復元力が主な焦点である従来の SAN とは異なります。 この例では、I/O カードを追加してサーバーを共有ストレージとして利用するのではなく、VES ストレージ サーバー内で最適なパフォーマンスが得られるように構成しています。
この設定の微妙な違いは重要です。 システムの背面にある各 AMD EPYC コンピューティング ノードに 12 台の P5316 SSD を提供しています。 これらのノードは、データの可用性に対するアプリケーション レベルの復元力を前提として、JBOD のストレージに対応します。 このレポートでは GPU を活用しませんでしたが、分析や推論のワークロードのためにこれらのノードを NVIDIA A2 などで構成することは非常に合理的です。
ただし、サーバーとストレージの構成について詳しく説明する前に、この作業の一部である主要なハードウェア コンポーネントを見てみましょう。
この作業のために、私たちは前面にある 24 個の Solidigm P5316 30.72TB SSD を最大限に活用できる強力なサーバーを見つけるために VES に行きました。 これは些細な問題ではありません。 シングルポート ドライブは、AMD サーバー ノードの 1 つから各ドライブに 4 つの PCIe v4 レーンを提供できるソリューションで最高のパフォーマンスを発揮します。 帯域幅を制限する可能性がある内部エクスパンダを介したアクセスとは対照的に、直接アクセスは各 SSD から最高のパフォーマンスを提供します。 さらに、デュアル ポート SSD 用に設計された以前のバイキング エンタープライズ サーバーのレビューと比較して、このシステムは Solidigm P5316 のようなシングル ポート SSD 用に設計されています。
バイキング エンタープライズ ソリューション VSS2249P は、シングル ポート U.2 PCIe v4 ドライブ用の 24 ベイを備えた 2U デュアルノード ストレージ サーバーです。 具体的には、各サーバー ノード (またはモジュール) は、x4 PCIe Gen4 レーンを介して 12 個のシングル ポート、ホットプラグ対応 NVMe 2.5 インチ U.2 (SFF-8639) SSD をサポートし、パフォーマンス重視のサーバーとなります。 これにより、エッジ コンピューティング ストレージ、分析、機械学習、AI、OLTP データベース、高頻度取引、モデリング、シミュレーション、科学研究など、I/O ボトルネックが問題となる可能性のあるユースケースに最適です。他の高パフォーマンスのユースケース。
VES は、ハイパフォーマンスおよびクラウド コンピューティングのエンタープライズ OEM 顧客向けの大規模ソリューションの開発を専門とする、ストレージおよびサーバー開発の大手企業です。 幅広い顧客ポートフォリオを持っているため、ソリューションを開発する際に新興テクノロジーを活用する豊富な経験があり、顧客に競争上の優位性をもたらすことができます。 VSS2249P でも同様のことが期待されます。
このサーバーは以前にも研究室にありましたが、今回は 30.72TB Solidigm D5-P5316 PCIe Gen4 NVMe SSD を搭載しました。これは、U.2 15mm フォーム経由のストレージのほぼ 4 分の 3 ペタバイトに相当します。要素。 これにより、顧客 (特にハイパースケール分野) は大規模な展開が可能になります。 D5-P5316 ドライブは 144 層 QLC NAND も備えており、大容量モデルと確かなパフォーマンスを維持しながらコストを削減します。
D5-P5316 はシーケンシャル読み取りで最大 7GB/s を実現するとされていますが、30.72TB モデルは書き込み速度がもう少し高く 3.6GB/s です。 Solidigm は、ランダム 4K 読み取りにおいて、新しいドライブがすべてのモデルで 800,000 IOPS であると見積もっています。 このドライブは、1 日あたりのドライブ書き込み数 (DWPD) が 0.41 で、5 年間の保証があり、AES-256 ハードウェア暗号化、NVMe サニタイズ、ファームウェア測定などの一連の強化されたセキュリティも備えています。
これらのドライブは、コンテンツ配信ネットワーク (CDN)、ハイパーコンバージド インフラストラクチャ (HCI)、ビッグ データなどのデータ センター ワークロード内のストレージを最適化および高速化する必要がある環境に最適です。
全体として、Solidigm は容量、パフォーマンス、コストのバランスが優れたドライブを作成したことがわかりました。これは VSS2249P に最適です。
VSS2249P エンクロージャ内の 2 つのサーバー モジュールはホットスワップ可能で、AMD EPYC Rome CPU、2 つの x16 PCIe Gen4 スロット、Gen 4 PCIe アドイン カードをサポートする 1 つの OCPNIC v3.0、および最大 8 つの DIMM を備えています。 VSS2249P は、3.43 インチ (高さ) x 17.2 インチ (幅) x 27.44 インチ (奥行き) で、業界標準の 19 インチ、1.0 メートルのラックにぴったり収まるように仕様化されており、さまざまなアプリケーション。
この構成の各ノードには、24 コア、2.8 GHz のベース クロック (最大ブースト 3.35 GHz)、48 スレッド、および 128 MB の L3 キャッシュを備えた AMD EPYC 7402P CPU が含まれています。 また、64GB DDR4 RAM (8 x 8GB) と 250GB M.2 ブート SSD も装備されています。
VSS2249P はケーブル不要のシステムとして設計されています。 たとえば、ドライブ プレーンは、PSU だけでなく、電源、データ、管理のための接続を提供します。 システム ファンもサーバー スレッド アセンブリの一部であり (ファン ボードを介してドライブ プレーンに接続されています)、ドライブ プレーンによって電力が供給され、制御されます。 簡単にアクセスできるように、ファンはトップ カバーから取り外されます。 すべての SSD はミッドプレーンに直接接続されます。 これにより、VSS2249P の保守がシームレスになり、ケーブルがないため通気性が向上し、サーバー ノードが冷却されます。
私たちのほとんどは QLC フラッシュを TLC SSD のよりパフォーマンスの低い代替品として考えていますが、それは方程式の片側だけを見ているだけです。 小規模なブロックのランダム書き込みパフォーマンスは、粗い間接化などのアーキテクチャ上の決定により低下する可能性がありますが、シーケンシャル書き込みと大きなブロックのランダム書き込みパフォーマンスは非常に競争力があり、エントリーレベルの TLC DC SSD に非常に近いです。
市場にある TLC ベースのフラッシュでは、書き込み速度は遅くなりますが、読み取りパフォーマンスは、完全に競争力があるとは言えませんが、依然として高性能です。 このレビューで私たちが焦点を当てたのは、2 ノード サーバー内で 24 台の Solidigm P5316 30.72TB SSD を活用し、背後に十分なコンピューティングを使用してどこまで性能を向上できるかを示すことでした。
前回同様のバイキング エンタープライズ ソリューション システムを調べたとき、このシステムは 2 つのノード間で 24 個の SSD を共有するように構築されており、各ノードは各 SSD にマルチパス アクセスを持っています。 VSS2249P はバックエンドで同様のノードを使用しますが、12 台の SSD が 1 つのノードに直接接続され、残りの 12 台は別のノードに直接接続されます。 これにより、各 SSD に、接続されているノードに戻る PCIe Gen4 レーンの完全な 4 チャネルが与えられます。
各サーバーに Ubuntu 20.04 をインストールし、FIO を利用して 24 台すべての Solidigm P5316 SSD を同時に飽和させました。 各 SSD はシーケンシャルフィルで完全に埋められ、その後パーティション化されてワークロードのフットプリントがドライブ表面の 5% に集中しました。 従来のフラッシュ メディアと重複する、QLC に最適化されたブロック サイズに焦点を当てました。 主な違いは、64K 未満の書き込みアクティビティを最小限に抑えることで、QLC フラッシュの間接書き込みの問題点が生じます。 そうは言っても、測定したワークロードは次のとおりです。
1MB のシーケンシャル転送サイズを使用した最初のテストでは、24 個の P5316 SSD で 175.5GB/秒という驚異的な帯域幅を測定しました。 これは、フロントエンドの SSD あたり 7.3GB/s をわずかに超えることになります。 シーケンシャル 1M 書き込みワークロードの場合、その量は SSD あたり 56.1GB/s または 2.34GB/s と測定されました。
ブロック サイズを 64K ワークロードに縮小すると、Solidigm P5316 SSD は 159GB/s、つまり SSD あたり 6.62GB/s 以上の帯域幅を実現しました。 書き込みワークロードは 57.7GB/s または SSD あたり 2.40GB/s と測定されました。
すべてのワークロードがシーケンシャルであるわけではないため、より要求の厳しい 64K ランダム ワーキング セットに移行しました。これにより、QLC SSD は最もストレスの多い状況の 1 つに陥りました。 読み取りトラフィックの帯域幅は最大となり、176.3GB/秒という驚異的なトラフィックが発生しました。 ただし、読み取りから書き込みに切り替えると、P5316 SSD で最もストレスがかかる部分となり、ドライブあたり 13.2GB/s または 550MB/s を測定しました。 これは、このワークロードのスペックシートの数値と一致していますが、これらの SSD が限界に達する場所を示しています。
64K のランダム読み取りでは最高のドライブ パフォーマンスが得られ、書き込みでは最低のパフォーマンスが得られることがわかっていたので、混合ワークロードの組み合わせを調べて、読み取り/書き込みバランスの変化に応じてこれらのドライブがどのように変化するかを確認しました。 70% の読み取り 64K ランダム ワークロードでは、ドライブ グループの測定値は 44GB/秒でした。 ただし、これをさらに調整して読み取りを 90% にすると、帯域幅は 130.7GB/s にまで跳ね上がりました。 これは、あらゆる状況で TLC SSD を置き換えるように設計されているわけではありませんが、適切な状況で導入された QLC SSD が強力なドライブになり得る点をさらに推進します。
テストのまとめとして、4K ランダム読み取りパフォーマンスに焦点を当てたピーク スループット テストを検討しました。 これらのドライブは 64K の粗い間接単位を使用しており、4K では最高のパフォーマンスを提供しないため、4K 書き込みはスキップされました。 4K ランダム読み取りでは、ほぼ 87GB/秒の 4K トラフィックまたは 2,120 万 IOPS を測定しました。 これは、市場にある TLC SSD 製品とほぼ一致する素晴らしい統計です。
私たちはこれまでに Solidigm の QLC SSD で広範な作業を行ってきましたが、これはこれまでに行った中で最も重要な作業であり、2U サーバーに約 750 TB のストレージを詰め込みました。 私たちは、分析や推論などのアプリケーションが最新のプラットフォーム設計を活用できる構成でドライブがどのように動作するかを調べたいと考えました。 QLC に対する一般的な印象は、価値のあるプロジェクトやアーカイブ プロジェクトにのみ適しているというものですが、それは真実から大きく外れています。
パフォーマンスを見ると、VES VSS2249P ストレージ サーバーの P5316 SSD が驚くべき結果を達成できたことがわかります。 大きなブロックのシーケンシャル パフォーマンスはサーバーで飽和しており、各 SSD の Gen4 U.2 ベイの読み取りパフォーマンスはほぼ最大になります。 1M 読み取りで 175.5GB/s を測定し、SSD あたり 7.3GB/s と計算されました。
ランダム読み取りパフォーマンスも素晴らしく、64K ブロック サイズで最高 176.3GB/s に達しました。 ただし、書き込みパフォーマンスを気にしないでください。 ドライブは、ブロックされた大規模なワークロードでも非常にうまく機能しました。 64K シーケンシャル書き込みの測定速度は 57.7GB/s でしたが、64K ランダム書き込みは 13.2GB/s まで減少しました。 読み取りアクティビティに重点を置いた混合ワークロードは非常に良好なパフォーマンスを示し、64K 70/30 では 44GB/s、64K 90/10 では 131GB/s 弱を測定しました。 最後に、小さなブロックのランダム読み取りでは、4K ワークロードで 86.9GB/s または 21.2M IOPS という驚異的な値を測定しました。
過去には、デュアルポート TLC SSD を活用して、このバイキング エンタープライズ サーバーのデュアルノード HA バージョンで作業を行ってきました。 厳密に一致するわけではありませんが、これらの QLC SSD が TLC ソリューションに対して非常に優れていることを示す興味深い傾向線がいくつかあります。
どちらのドライブ セットも、64K シーケンシャル読み取りで TLC SSD が 125GB/s、Solidigm P5316 QLC SSD が 159GB/s と、膨大な帯域幅を駆動することができました。 書き込みパフォーマンスも同様で、P5316 の 57.7GB/s と比較して、TLC SSD は 64K シーケンシャル書き込みで 63.2GB/s を測定しました。
このデータは、QLC がすべてのアプリケーションで TLC に完全に置き換わることを示唆するものではありません。書き込みパーセンテージと耐久性の必要性が増加するにつれて、TLC には依然として大きな利点があります。 ただし、多くのユースケースでは、QLC SSD は導入の準備ができており、特にワークロードが書き込み集中型ではない場合には、TLC の競合他社よりも高速になることがよくあります。
さらに、容量とパフォーマンスの組み合わせが必要な場合は、QLC DC SSD が断然勝ります。これは、QLC と将来の PLC SSD が適切に機能する独自の組み合わせです。 この VES ストレージ サーバーで 2U の PB のストレージのほぼ 3/4 にわたって 175GB/s 以上をポストしたことを考えると、ラック効率はかなり説得力があるように見えます。
VESストレージサーバー
ソリッドディグム製品
Solidigm はこのレポートのスポンサーです。 このレポートで表明されているすべての見解や意見は、検討中の製品に対する当社の公平な見解に基づいています。
StorageReview と連携する
ニュースレター | ユーチューブ | ポッドキャスト iTunes/Spotify | インスタグラム | ツイッター | フェイスブック | RSSフィード
ブライアンはオハイオ州シンシナティに拠点を置き、StorageReview.com のチーフ アナリスト兼社長を務めています。
StorageReview と連携する