banner
ニュース センター
私たちの目標は、優れた製品、短納期、優れた顧客サービスを提供することです。

チップレットとは何か、そしてプロセッサの将来にとってチップレットがそれほど重要である理由

Jul 22, 2023

チップレットは何十年も使用されてきましたが、使用頻度は低く、非常に特殊な目的にのみ使用されてきました。 現在、それらはテクノロジーの最先端にあり、世界中の何百万人もの人々がデスクトップ PC、ワークステーション、サーバーでそれらを使用しています。

業界リーダーは最近、チップレットを活用してイノベーションの最前線の地位を取り戻しましたが、チップレットがコンピューティングの世界の標準になるまでにそう長くはかからないことは明らかです。 それで、落ち着いてチップレットについて、そしてチップレットがなぜそれほど重要なのかを正確に学びましょう。

チップレットはセグメント化されたプロセッサです。 すべての部品を 1 つのチップに統合する (モノリシック アプローチと呼ばれる) のではなく、特定のセクションが個別のチップとして製造されます。 これらの個々のチップは、複雑な接続システムを使用して単一のパッケージにまとめて実装されます。

この配置により、最新の製造方法の恩恵を受ける部品のサイズを縮小でき、プロセスの効率が向上し、より多くのコンポーネントに適合できるようになります。

大幅に削減できない、または削減する必要のないチップの部分は、古い、より経済的な方法を使用して製造できます。

このようなプロセッサの製造プロセスは複雑ですが、通常、全体的なコストは低くなります。 さらに、プロセッサ企業に製品範囲を拡大するためのより管理しやすい道を提供します。

プロセッサメーカーがチップレットに注目した理由を完全に理解するには、まずこれらのデバイスがどのように作られるのかを詳しく調べる必要があります。 CPU と GPU は、通常、直径 12 インチ (300 mm) 弱、厚さ 0.04 インチ (1 mm) の超高純度シリコンで作られた大きなディスクとしてその寿命を開始します。

このシリコン ウェーハは一連の複雑なステップを経て、絶縁体、誘電体、金属などのさまざまな材料の複数の層が形成されます。 これらの層のパターンは、フォトリソグラフィーと呼ばれるプロセスを通じて作成されます。このプロセスでは、パターンの拡大バージョン (マスク) を通して紫外線が照射され、その後、レンズを介して必要なサイズに縮小されます。

パターンは設定された間隔でウェハの表面全体に繰り返され、これらのそれぞれが最終的にプロセッサになります。 チップは長方形で、ウェーハは円形であるため、パターンはディスクの周囲と重なる必要があります。 これらの重複部分は機能しないため、最終的には破棄されます。

完成したら、各チップに当てられたプローブを使用してウェーハがテストされます。 電気的検査の結果は、エンジニアに、長いリストの基準に対するプロセッサの品質を知らせます。 チップビニングとして知られるこの初期段階は、プロセッサの「グレード」を決定するのに役立ちます。

たとえば、チップが CPU であることを目的としている場合、すべての部品が正しく機能し、特定の電圧で設定されたクロック速度の範囲内で動作する必要があります。 次に、これらのテスト結果に基づいて、各ウェーハセクションが分類されます。

完成すると、ウェーハは使用可能な個々の部分、つまり「ダイ」に切断されます。 これらのダイは、特殊なマザーボードと同様に、基板上に取り付けられます。 プロセッサーは、配布の準備が整う前に、さらにパッケージ化 (ヒート スプレッダーなどを使用) されます。

一連の製造には数週間かかる場合があり、TSMC や Samsung などの企業は、使用するプロセス ノードに応じて 3,000 ドルから 20,000 ドルの高額な料金をウェーハごとに請求します。

「プロセス ノード」は、製造システム全体を表すために使用される用語です。 歴史的には、トランジスタのゲート長にちなんで名付けられました。 しかし、製造技術が向上し、コンポーネントの小型化が可能になるにつれて、その命名法はもはや金型の物理的側面に従わなくなり、現在では単なるマーケティング ツールとなっています。

それにもかかわらず、新しいプロセス ノードはそれぞれ、以前のプロセス ノードに比べて利点をもたらします。 生産コストが安くなったり、同じクロック速度で消費電力が少なくなったり (またはその逆)、あるいは密度が高くなったりする可能性があります。 後者のメトリクスは、特定のダイ領域内にいくつのコンポーネントが収まるかを測定します。 以下のグラフでは、GPU (PC に搭載されている最大かつ最も複雑なチップ) が長年にわたってどのように進化してきたのかがわかります。

プロセス ノードの改善により、エンジニアは大型で高価なチップを使用することなく、製品の機能とパフォーマンスを向上させることができます。 ただし、プロセッサのすべての側面がこれらの進歩から恩恵を受けることができるわけではないため、上のグラフはストーリーの一部を示しているにすぎません。

チップ内の回路は、次の広いカテゴリのいずれかに割り当てることができます。

残念ながら、プロセス ノード テクノロジが大きく前進するたびに論理回路は縮小し続けていますが、アナログ回路はほとんど変化しておらず、SRAM も限界に達し始めています。

依然としてロジックがダイの大部分を占めていますが、今日の CPU および GPU に搭載される SRAM の量は近年大幅に増加しています。 たとえば、Radeon VII グラフィックス カードで使用されている AMD の Vega 20 チップには、合計 5 MB の L1 キャッシュと L2 キャッシュが搭載されています。 GPU のわずか 2 世代後、Navi 21 には 130 MB を超える各種キャッシュが搭載されており、これは Vega 20 の 25 倍という驚くべき量です。

新世代のプロセッサが開発されるにつれて、これらのレベルは増加し続けることが予想されますが、メモリだけでなくロジックもスケールダウンしないため、同じプロセス ノード上ですべての回路を製造することのコスト効率はますます低くなります。

理想的な世界では、アナログ セクションが最大かつ安価なノード上に製造され、SRAM パーツがはるかに小さいノード上に製造され、ロジックが絶対的な最先端テクノロジーのために確保されるダイを設計することになります。 残念ながら、これは現実的には達成できません。 ただし、別のアプローチも存在します。

1995 年に遡ると、Intel はオリジナルの P5 プロセッサの後継である Pentium II を発売しました。 当時の通常の運賃と異なる点は、プラスチックのシールドの下に 2 つのチップを収容する回路基板があったことでした。1 つはすべての処理ロジックとアナログ システムを含むメイン チップ、もう 1 つはレベル 2 として機能する 1 つまたは 2 つの別個の SRAM モジュールです。キャッシュ。

Intel は主要チップを製造しましたが、キャッシュは他の企業から供給されていました。 これは 1990 年代半ばから後半にかけて、半導体製造技術が向上してロジック、メモリ、アナログをすべて同じダイに統合できるようになるまで、デスクトップ PC ではかなり標準的なものとなりました。

Intel の Pentium II – 中央に CPU、右側にキャッシュ チップ。 出典: ウィキメディア

Intel は同じパッケージ内の複数のチップに手を出し続けましたが、プロセッサに対するいわゆるモノリシック アプローチ、つまりすべてを 1 つのチップで行うアプローチに主に固執しました。 ほとんどのプロセッサでは、製造技術が十分に熟練しており (そして手頃な価格で)、簡単に製造できるため、複数のダイを使用する必要はありませんでした。

しかし、他の企業、特に IBM はマルチチップアプローチに従うことに関心を持っていました。 2004 年には、4 つのプロセッサーと 4 つのキャッシュ モジュールをすべて同じ本体内に搭載した、8 チップ バージョンの POWER4 サーバー CPU を購入できるようになりました (マルチチップ モジュールまたは MCM アプローチと呼ばれます)。

この頃、DARPA (国防高等研究計画局) による研究活動の影響もあって、「異種統合」(HI) という用語が登場し始めました。 HI は、処理システムのさまざまなセクションを分離し、それぞれに最適なノード上で個別に製造し、それらを同じパッケージに統合することを目指しています。

現在、これはシステムインパッケージ (SiP) としてよく知られており、スマートウォッチにチップを搭載する当初からの標準的な方法となっています。 たとえば、シリーズ 1 Apple Watch は、CPU、一部の DRAM および NAND フラッシュ、複数のコントローラー、およびその他のコンポーネントを単一の構造内に収容しています。

Apple の S1 SiP の X 線写真。 出典: iFixit

同様のセットアップは、異なるシステムをすべて 1 つのダイ上に配置することによって実現できます (システム オン チップまたは SoC と呼ばれます)。 ただし、このアプローチでは、さまざまなノード価格を利用することはできず、すべてのコンポーネントをこの方法で製造することもできません。

テクノロジー ベンダーにとって、ニッチな製品にヘテロジニアス統合を使用することと、ポートフォリオの大部分にヘテロジニアス統合を採用することは別のことです。 これはまさに AMD が自社のプロセッサ群で行ったことです。 2017 年、半導体大手はシングルダイ Ryzen デスクトップ CPU の形で Zen アーキテクチャをリリースしました。 数か月後、Threadripper と EPYC という 2 つのマルチチップ製品ラインがデビューし、後者は最大 4 つのダイを搭載しました。

2 年後の Zen 2 の発売により、AMD は HI、MCM、SiP を完全に採用しました (呼び方は自由です)。 彼らは、アナログ システムの大部分をプロセッサから移動し、別のダイに配置しました。 これらはよりシンプルで安価なプロセス ノードで製造され、残りのロジックとキャッシュにはより高度なプロセス ノードが使用されました。

そして、チップレットが流行語になりました。

AMD がこの方向を選択した理由を正確に理解するために、以下の画像を調べてみましょう。 ここでは、Ryzen 5 シリーズの 2 つの CPU を紹介しています。左側はいわゆる Zen+ アーキテクチャを採用した 2600、右側は Zen 2 を搭載した 3600 です。

両モデルのヒートスプレッダーは取り外されており、写真は赤外線カメラを使用して撮影されました。 2600 のシングル ダイには 8 つのコアが収容されていますが、この特定のモデルではそのうちの 2 つが無効になっています。

出典: フリッチェン・フリッツ

これは 3600 の場合にも当てはまりますが、ここではパッケージ内に 2 つのダイがあることがわかります。上部のコア コンプレックス ダイ (CCD) はコアとキャッシュを収容し、入力/出力ダイ (IOD) は上部にあります。底部にはすべてのコントローラー (メモリ、PCI Express、USB など) と物理インターフェイスが含まれています。

両方の Ryzen CPU が同じマザーボード ソケットに適合するため、2 つのイメージは基本的にスケール通りです。 表面的には、3600 の 2 つのダイの合計面積が 2600 の単一チップよりも大きいように見えるかもしれませんが、見た目は欺瞞的である可能性があります。

コアを含むチップを直接比較すると、古いモデルでアナログ回路がどれだけのスペースを占めているかは明らかです。金色のコアとキャッシュを囲むすべての青緑色です。 ただし、Zen 2 CCD では、アナログ システム専用のダイ領域はほとんどありません。 ほぼ完全にロジックと SRAM で構成されています。

Zen+ チップの面積は 213 mm² で、GlobalFoundries が 12nm プロセス ノードを使用して製造しました。 Zen 2 では、AMD は 125 mm² IOD に対して GlobalFoundries のサービスを維持しましたが、73 mm² CCD に対しては TSMC の優れた N7 ノードを利用しました。

Zen+ (上) vs Zen 2 CCD (下)

新しいモデルのチップの合計面積は小さくなり、2 倍の L3 キャッシュを誇り、より高速なメモリと PCI Express をサポートします。 ただし、チップレット アプローチの最も優れた点は、CCD のサイズがコンパクトなため、AMD が別の CCD をパッケージに組み込むことが可能になったことです。 この開発により、デスクトップ PC 向けに 12 コア モデルと 16 コア モデルを提供する Ryzen 9 シリーズが誕生しました。

さらに良いことに、1 つの大きなチップではなく 2 つの小さなチップを使用することで、各ウェーハからより多くのダイを生成できる可能性があります。 Zen 2 CCD の場合、1 枚の 12 インチ (300 mm) ウェハーで Zen+ モデルよりも最大 85% 多くのダイを生産できます。

ウェーハから切り出すスライスが小さければ小さいほど、製造上の欠陥が見つかる可能性は低くなります(欠陥はディスク全体にランダムに分布する傾向があるため)。これらすべてを考慮すると、チップレットのアプローチは AMD にポートフォリオを拡張する能力により、これまでよりコスト効率が高くなりました。同じ CCD を複数のモデルで使用でき、各ウェーハで何百もの CCD が生産されます。

ウェーハから採取したピースが小さいほど、製造上の欠陥が発生する可能性は低くなります (欠陥はディスク全体にランダムに分布する傾向があるため)。 したがって、これらすべてを考慮すると、チップレットのアプローチにより、AMD はポートフォリオを拡大できるだけでなく、コスト効率も大幅に向上しました。 同じ CCD を複数のモデルで使用でき、各ウェーハで数百個の CCD が生産されます。

しかし、この設計選択がそれほど有利であるならば、なぜインテルはそれを行わないのでしょうか? GPU などの他のプロセッサで使用されていないのはなぜですか?

最初の質問に答えるために、Intel は確かに完全なチップレット ルートを採用しており、Meteor Lake と呼ばれる次のコンシューマ CPU アーキテクチャでその実現に向けて順調に進んでいます。 当然のことながら、Intel のアプローチはやや独特なので、AMD のアプローチとどのように異なるかを見てみましょう。

チップレットの代わりにタイルという用語を使用するこの世代のプロセッサでは、以前のモノリシック設計が 4 つの個別のチップに分割されます。

SOC と他の 3 つのタイルの間には高速、低遅延の接続があり、それらはすべてインターポーザーとして知られる別のダイに接続されています。 このインターポーザーは各チップに電力を供給し、チップ間の配線を含みます。 次に、インターポーザーと 4 つのタイルが追加のボードに取り付けられ、アセンブリ全体がパッケージ化されるようになります。

Intel とは異なり、AMD は特別な実装ダイを使用しませんが、チップレット データ トランザクションを処理するために、Infinity Fabric として知られる独自の接続システムを備えています。 電力供給はかなり標準的なパッケージで実行され、AMD は使用するチップレットの数も少なくなります。 では、なぜインテルの設計はそのようなものなのでしょうか?

AMD のアプローチの課題の 1 つは、ウルトラモバイル、低電力の分野にはあまり適していないことです。 これが、AMD が依然としてそのセグメントにモノリシック CPU を使用している理由です。 インテルの設計により、特定のニーズに合わせてさまざまなタイルを組み合わせることができます。 たとえば、手頃な価格のラップトップの低価格モデルでは、はるかに小さいタイルをどこでも使用できますが、AMD は各目的に対して 1 サイズのチップレットしかありません。

Intelのシステムの欠点は、製造が複雑でコストがかかることだが、これが小売価格にどう影響するかを予測するのは時期尚早だ。 しかし、両 CPU 企業はチップレットのコンセプトに全力で取り組んでいます。 製造チェーンのあらゆる部分がそれに基づいて設計されれば、コストは削減されるはずです。

GPU に関しては、ダイの他の部分に比べてアナログ回路が比較的少ないですが、内部の SRAM の量は着実に増加しています。 これが、AMD がそのチップレットの知識を最新の Radeon 7000 シリーズに適用した理由です。Radeon RX 7900 GPU は複数のダイで構成されています。コアと L2 キャッシュ用の 1 つの大きなチップと、それぞれに L3 キャッシュのスライスを含む 5 つまたは 6 つの小さなチップで構成されています。そしてメモリコントローラー。

これらの部品をメイン ダイから移動することで、エンジニアはチップ サイズを制御するために最新のプロセス ノードを使用する必要がなく、ロジックの量を大幅に増やすことができました。 ただし、この変更はグラフィックス ポートフォリオの幅を強化するものではありませんでしたが、おそらく全体的なコストの改善には役立ちました。

現在、Intel と Nvidia は GPU 設計で AMD の先を追う気配はありません。 両社はすべての製造業務にTSMCを使用しており、非常に大型のチップを生産し、そのコストを消費者に転嫁することに満足しているようだ。

ただし、グラフィックス分野の収益が着実に減少しているため、今後数年以内にすべての GPU ベンダーが同じ路線を採用する可能性があります。

こうした変化がいつ起こるかに関係なく、根本的な真実は、変化は必ず起こるということです。 半導体製造における技術の驚異的な進歩にもかかわらず、各コンポーネントを縮小できる量には明確な制限があります。

チップのパフォーマンスを向上し続けるために、エンジニアには基本的に 2 つの方法があります。つまり、ロジックを追加し、それをサポートするために必要なメモリを追加することと、内部クロック速度を向上させることです。 後者に関しては、平均的な CPU はこの点で長年にわたって大きな変化がありません。 2013 年以降の AMD の FX-9590 プロセッサは、特定のワークロードで 5 GHz に達する可能性がありますが、現行モデルの最高クロック速度は 5.7 GHz (Ryzen 9 7950X の場合) です。

Intel は最近、適切な条件下で 6 GHz に達することができる Core i9-13900KS を発売しましたが、そのモデルのほとんどは AMD と同様のクロック速度を持っています。

ただし、変わったのは回路と SRAM の量です。 前述の FX-9590 は 8 コア (および 8 スレッド) と 8 MB の L3 キャッシュを備えていましたが、7950X3D は 16 コア、32 スレッド、および 128 MB の L3 キャッシュを誇ります。 Intel の CPU も同様にコアと SRAM の点で拡大しています。

Nvidia の最初の統合シェーダ GPU である 2006 年の G80 は、面積 484 mm2 のチップ内に 6 億 8,100 万個のトランジスタ、128 コア、および 96 kB の L2 キャッシュで構成されていました。 2022 年に AD102 が発売されたとき、AD102 は現在、608 mm2 のダイ面積内に 763 億個のトランジスタ、18,432 個のコア、98,304 kB の L2 キャッシュで構成されています。

1965 年、フェアチャイルド セミコンダクターの共同創設者ゴードン ムーアは、チップ製造の初期には、一定の最小製造コストでダイ内のコンポーネントの密度が毎年 2 倍になっていることに気づきました。 この観察はムーアの法則として知られるようになり、後に製造傾向に基づいて「チップ内のトランジスタの数が 2 年ごとに 2 倍になる」ことを意味すると解釈されました。

ムーアの法則は、60 年近くにわたって半導体産業の進歩をかなり正確に描写し続けています。 CPU と GPU の両方におけるロジックとメモリの大幅な向上は、プロセス ノードの継続的な改善によって達成され、コンポーネントは年々小型化しています。

しかし、どんな新しい技術が登場しても、この傾向が永遠に続くわけではありません。

AMD や Intel などの企業は、この制限に達するのを待つのではなく、チップレットに注目し、より強力なプロセッサの開発を継続するためにチップレットを組み合わせるさまざまな方法を模索しています。

数十年後の将来、平均的な PC には手のサイズの CPU と GPU が搭載されているかもしれませんが、ヒート スプレッダーを剥がすと、3 つや 4 つではなく、数十個の小さなチップが多数発見され、それらはすべて巧妙に作られているでしょう。タイル状に並べて積み上げたもの。

チップレットの優位性はまだ始まったばかりです。

索引