Mellanox LinkX シリーズケーブル、トランシーバ製品群について。
現在(2019年12月時点)、Mellanoxでは、既に200Gb/s に対応する製品を市場投入しており、LinkX シリーズとしてサポートされるケーブル・コネクタの仕様が増えてきておりますので、その先の400Gb/sも含め、一度、同社が提供する製品に限定して少し整理をしてみたいと思います。
ケーブル製品ラインナップ
(両端にコネクタが一体化された)ケーブルを選択する要素は、「転送速度」、「延長距離」、「コネクタ形状」、「ケーブル被覆の難燃性のグレード」となります。また、ここに掲載されていない「製品価格」も重要な要素となります。加えて、同時に、一対一のものか、1つのポートを複数に分けるSplitter/Break Out タイプのケーブルが必要なのかも要素となります。
※ 上記は、2019年12月時点、LinkX のEthernet DAC / DAC Spilitter / AOC / AOC Splitter の各ページに掲載されている製品情報をまとめたチャートとなります。
トランシーバ製品ラインナップ
RJ-45タイプのコネクタを持つ製品を除き、電気信号を光に変換して伝送するトランシーバについては、トランシーバ間に純然たる光のケーブルを挟む形で機器間を接続する形となりますので、上記のケーブルに対しトランシーバの反対側にもう一つコネクタがつく形になり、距離は、間の挟む光のケーブル側で確定しますので、その代わりに「そのトランシーバでの最大延長距離」、「光のケーブル側との接続コネクタ」形状と光のケーブルの中を通す光の「波長」、以下でアプリケーションと書かれている「転送仕様」そして、「消費電力」等が、選択の要素となります。
では、次に「どう選べばよいのか?」について解説していきます。
アダプタ・スイッチのコネクタの仕様
簡単に、Mellanoxがサポートする転送速度とコネクタ仕様を纏めると以下のチャートとなります。転送速度とコネクタ仕様によりある程度の選択の目途は立つのではないかと思います:
ですが、もう少し解説をさせていただきます:
『SFP』と『QSFP』コネクタについて
『SFP』は、『 Small Form-factor Pluggable』の略であるのに対し、『QSFP』は、『Quad SFP』 の省略形であり、『QSFP』は、電気的には、SFPを4つ分束ねた、4レーン分の転送レートをサポートします。
上記は、SN2010スイッチ前面の拡大図ですが、コネクタの口に違いがあり、4レーンに対応するためか、QSFP コネクタケージ の方が少し横に長くなっています。
そのため、例えば、10Gb/s のSFP+に対し、QSFP+は、10Gb/s(のSFP+)を4つ束ねて、40Gb/sの転送帯域幅を実現しています。後述のDDを除き、SFP、QSFP ともそのあとに、転送レートによって、『+』、『28』、『56』などの記号あるいは数字が付きますが、物理的な形状は、SFP あるいは、QSFP と同じであり、違いは、電気的な仕様のみとなります。なお、SFP28では、転送レートは、25Gb/sとなっているのに対し、何故『28』とついているのかといえば、25Gb/sの実効転送レートを確保するためには、SFP内を28Gb/s分の信号を流す必要があるためとのことです。
Dual Density(DD)について
また、『DD』の『Dual Density』は、これまでSFP、QSFP コネクタのコンタクト(接点)部分は1列で1レーン分、あるいは、4レーン分のコンタクトであったのに対し、2列化することにより、SFP-DD では、SFP56 (50Gb/s) x 2列=100Gb/s(50Gb/s x 2レーン)、QSFP-DDでは、QSFP56 (200Gb/s) x 2列 = 400Gb/s(50Gb/s x 8レーン) の帯域幅をサポートします。この2列の仕組みにより、技術的に同じ世代で、それぞれ倍の帯域幅を提供可能にしています。
なお、SFP-DD/QSFP-DDの2列目のコンタクトは、例えば、QSFP-DDケージにQSFP28コネクタが挿入された場合、上の右チャートの上段のように 2列目(Second Row)は接続されず、1列目(First Row)の4レーン分のみが有効となる設計となっているため、コネクタケージとしては、従来のSFP/QSFP のコネクタと下位互換性が あります。そのため、横から見るとQSFP-DDコネクタは、QSFP28に対し若干長くなっています。
ケーブルの種類と使い分け
冒頭からコネクタの形状にフォーカスを絞って記載しましたが、ケーブルにはどのような種類があって、どのように使い分ければよいのでしょうか?
種類として、DAC (Dicect Attached Copper)、AOC(Active Optical Cable)、トランシーバの3種類があり、誤解を恐れずに単純に言えば、DAC(Direct Attached Copper)は、両端のコネクタ部分にケーブルのIDを示す簡単な回路のみを搭載したシンプルな銅線のケーブル、AOCは、最初から両端のコネクタ部分も含め一体となった光ケーブル、トランシーバは、電気<=>光の変換部分のみで、後付けで、両端にMPO、LCといったコネクタを持つ純然たる光ケーブルを接続するモジュールとなります。
使い分け方法は、
■ 短距離
転送速度にもよりますが、0.5m~7 m程度、25GbEでは、5m程度までの距離では、DAC(Direct Attached Copper)を活用します。その理由として、後述の光ケーブルと比べ、電気<=>光の変換回路が不要であることより、低消費電力でかつとても安価であること。但し、伝送としては単に銅線のケーブルであることより、ノイズが乗りやすく距離を延ばすことはできません。
■ 中距離
両端に最初からコネクタの付いた、AOC と呼ぶ光ケーブルや、あるいは、マルチモードのトランシーバと純然たる光ケーブルを組み合わせて利用します。Mellanox では、トランシーバと850nmの波長のマルチモードのOM3あるいは、OM4仕様の光ケーブルを組み合わせて活用します。トランシーバより出力される850nnmの波長の光は、光ファイバーの内径と外形の間の屈折率の差を利用して内部を反射しながら伝送されていきます。OM3、OM4は、マルチモードの純然たる光のケーブルの伝送品質を担保するための仕様であり、接続距離が短ければ下位の数字のケーブルでも接続できますが、一般に10/40GbEでは、OM3、25/100GbEでは、OM4タイプの光ケーブルを活用します。
■ 長距離
シングルモードの光ケーブルとMellanox トランシーバの組み合わせて利用します。長距離用のトランシーバより出力される1310 nmの波長の高出力なレーザー光は、光ファイバーの内径をに沿ってまっすぐに伝送されることで減衰を押さえ、長距離の伝送に対応します。一般にシングルモードのトランシーバは、高出力のレーザーを使用するため、消費電力が大きく、スイッチによっては、使えるポートが決まっていたり、使えない場合がございます。そのため、シングルモードのトランシーバを活用するには、トランシーバの「消費電力」を確認し、接続予定のポートがその消費電力要件に一致しているかどうか事前に確認しておく必要がございます。
MellanoxのSN2000シリーズスイッチのSFP28ポートでは、ポート当たり、1.5W、QSFP28ポートでは、3.5Wが許される標準の消費電力量となり、一部のポートでは、以下のように高い消費電力にも対応しています。(2019年12月現在)
モデルファミリー | ポート | 最大でサポートされる消費電力量 |
---|---|---|
SN2700 | 1, 2, 31, 32 | 5.0W(b) |
SN2740 | 1, 2, 31, 32 | 2.5W |
SN2410 | 1, 2, 47, 48(c) | 4.5W(a) |
49, 50, 55, 56 | 5.0W(b) | |
SN2100 | 1, 2, 15, 16 | 4.5W(a) |
SN2010 | 19, 20, 21, 22 | 4.5W(a) |
1, 2, 17, 18(c) | 2.5W | |
メモ: a. 4.5Wの高出力モジュールは、バージョン3.6.3004以降のMellanox Onyx(MLNX-OS)でサポートされています。 b. 5.0Wの高出力モジュールは、最大80kmの100GbE光ファイバー用にバージョン3.x.1xxx以降のMellanox Onyx(MLNX-OS)でサポートされています。 c. SFP28 ポート。 |
※ SN2000シリーズハードウェアユーザーマニュアルより抜粋。『最大でサポートされる消費電力量』と『ポート』位置は、Mellanox Onyxのバージョンによって異なる可能性があります、必ず最新のマニュアル等でご確認ください。
スピリッター/Break Outケーブル
QSFPには、4つ分のSFPの信号を含んでいます。これを活用し、スイッチ側でポートを設定することにより、QSFPを2つのQSFPあるいは、4つのSFPとして活用することが可能です。そのため、左側をスイッチポートに接続するもとのして、次のような構成も可能となります。下記のように光ケーブルでのBreak Outだけではなく、銅線ケーブル、AOC でのBeak Outも可能であり、Mellanox からも製品が提供されています。
現在、活用可能な構成は
100Gb/s QSFP28 <=> 50GbE (QSFP28コネクタ) x 2
100Gb/s QSFP28<=>25GbE(SFP28コネクタ) x 4
40Gb/s QSFP+ <=> 10GbE (SFP+) x4
の構成であり、近い将来、以下の構成も可能になると思われます。
400Gb/s QSFP-DD <=> 200GbE (QSFP56コネクタ) x 2
200Gb/s QSFP56 <=> 100GbE (QSFP56コネクタ) x 2
200Gb/s QSFP56 <=> 50GbE (SFP56コネクタ) x 4
※ 上記図の左側のコネクタを、カードに接続することはできませんのでその点ご注意ください。
「ケーブルの被覆の難燃性グレード」
上記チャートでは、材質、用途が混在して記載されていますが、基本的に以下の4つのグレードになります。
● 柔軟性に富み一般的に活用される「PVC(塩化ビニール)」製のもの
● 低排煙で材質の要件にLSZH(Low Smoke Zero Halogen)とあるもの
● 延焼を防ぐため階を縦に通したり、防火壁を超える配線に活用される難燃グレードとして定義されているOFNR(Optical Fiber Non-conductive Riser)
● 更に高難燃のOFNP(Fiber Optic Non-conductivity Plenum)
※ データセンター等では、上記の難燃性のグレードが「納入要件」として求められる場合がございます。
トランシーバの光ケーブル側のコネクタと波長について
Mellanoxが 活用する純然たる光のケーブルを接続する物理的なコネクタの種類には、Duplex LC (下図左側)と MPO(下図右側)があります。
Duplex LCは、一対(2本の)の光ケーブルを、片方のケーブルで送信もう片方で受信という形で使用します。
MPOは、仕様として1列、12芯と2列24芯のものがありますが、200Gb/sまでで活用されている4チャネルの構成では、1列12芯の内ものを真ん中の4芯を使用せず、使用します。
また、MPO コネクタには、ピン有とピンなしがありますが、トランシーバにピンがついていますので、トランシーバに接続する光ケーブルのMPOコネクタにはピン無しのものを選択します。
また、MPOの場合、芯の先端の研磨の仕方により、一般的な円筒型に研磨するPC(Physical Contact)研磨(反射減衰量:25dB以上)、あるいは、SPC(Super PC)研磨(反射減衰量:40dB以上)、UPC(Ultra PC)(反射減衰量:50dB)研磨といった芯が接触する部分の反射率減衰量によって異なるものに加え、APC(Angle PC)研磨と呼ばれるPC/SPC/UPCの各研磨と互換性のない、芯線の先端部分に角度をつけることにより反射光を光ファイバー内に戻さず、反射をきわめて小さく抑える研磨方法のものもあります。Mellanox のAPC研磨では、8度の角度がついています。(MMS1C10-CM 製品ブローシャより抜粋)
Duplex LC、MPO、いずれの場合も、波長が、850nmの場合には、OM4(25/100Gb/s Ethernet(GbE)で、最大150m、10/40GbEの場合、最大300m)のマルチモードの光ケーブルを、ご選択ください。短い距離の接続では、OM3ケーブルを活用することも可能です。(詳細は、各トランシーバの製品ブローシャを確認ください。)また、波長が、1310nm の場合、シングル・モードの光ケーブルをご選択ください。
Mellanox ケーブルとトランシーバについての情報
Mellanoxのケーブル、トランシーバを活用するうえで、重要な情報となるのは、同社 Webサイトにある、Cables Reference Table となります。同ページの「Mellanox Certified Cables and Modules」チャートには、ケーブル・トランシーバ毎に、対応する転送速度等が 記載されているだけではなく、チャート右端のCompliancy notesの番号に従ってチャートの下の『Notes』を参照ください。互換性関連の重要な情報が記載されている場合がございます。
~中略~
…..
FAQについて
ここからは、2つほど、よく聞かれる質問(FAQ)について回答してみたいと思います。
Q1:25GbE対応のトランシーバは、10GbEに対応していますか?
A1:本質問は、製品のそれぞれの仕様に依存する話であり対応の有無は、製品毎に異なります。この点は上記「Mellanox Certified Cables and Modules」チャートにも記載がなく、Mellanox 製品では個別にトランシーバの製品ブローシャを確認する必要があります。Mellanoxのマルチモード対応25Gb/s トランシーバの「MMA2P00-AS」の場合、ブローシャに『IEEE 802.3 10GBASE-SR compliant』と『25G to 10G rate selection by turning off CDR』との記載があり、SFPポートの「CDR」ピンを下位互換モードに操作可能なスイッチでは、10Gb/s イーサネット(GbE)のマルチモードトランシーバとしても動作可能です。また、逆に長距離接続に活用するMellanoxのシングルモード対応の25Gb/sトランシーバ「MMA2L20-AR」の場合、ブローシャに10GbE(10GBASE-LR)に関する記載がなく、10Gb/sに非対応となります。
Q2:100Gb/s以上の速度に対応する銅線ケーブルでは、FEC 有とFEC 無しのケーブルが登場していますが、どちらを選択すればよいでしょうか?
A2:FECは、Forward Error Correctionの短縮形です。送信側では、データに冗長情報を付加して送信しており、FEC有のケーブルでは、受信側でデータを受け取った後、ある一定の単位毎に受け取ったデータを確認し、エラーがあれば冗長情報より元のデータを復元する工程を加えて、上位の階層にデータを渡しています。受け取った後にチェックと復元工程が必要となるため、若干(60~300ns程度)のレイテンシが付加されます。またFEC無しのケーブルでは、伝送品質を高めるため距離が長くなればなるほどより太いケーブルを活用することになりますが、FEC有のケーブルでは、エラー訂正を前提とするためFEC無しのケーブルに比べ、取り回しのし易い細いケーブルで提供される場合が多くなっています。
InfiniBand を活用した、High Performance Computing環境などにおいて運用者の気持ちの上でも1nsでも良い遅延性能を求める場合には、言うまでもなくFEC 無しのケーブルの利用をお勧めしますが、一般のInfiniBandあるいは、イーサネットでの利用用途においては、例えばより上位層のMPIのライブラリ、イーサネットのプロトコルスタック等においては、数百ns以上の遅延が発生することも通常ありえますので、アプリケーションまでを含めたファブリック全体の遅延性能に関するバランスとケーブルの費用までをよく考えた上でFEC有り無しをご選択されることをお勧め致します。
なお、FEC 有り無しの情報は、ケーブルをカード・スイッチなどのコネクタに接続すると交換される情報の中に含まれており、購入時に選択すれば、あとは意識することなくお使いいただけます。
いかがでしたでしょうか?トランシーバのCDRピンなどにも、もう少し解説してみたかったのですが、今回はボリュームの都合上、非常に駆け足で、コネクタ形状や注意すべき点等について説明させていただきました。ご不明点等ございましたら、お気軽にお問い合わせください。
最後までご精読、誠にありがとうございました。