メタはカスタムチップを搭載したAIに大きく賭ける

ブログ

ホームページホームページ / ブログ / メタはカスタムチップを搭載したAIに大きく賭ける

May 13, 2023

メタはカスタムチップを搭載したAIに大きく賭ける

Durante un evento virtuale questa mattina, Meta ha dato il via alla sua prossima impresa.

今朝の仮想イベントで、Meta は、最近発売した広告デザインおよび作成ツールを支えるタイプのような生成 AI を含む、AI ワークロード用の社内インフラストラクチャを開発する取り組みの幕を開けました。

これは、歴史的に AI 対応のハードウェア システムの導入が遅れ、Google や Microsoft などのライバルと歩調を合わせる能力を妨げている Meta の強みを投影する試みでした。

独自の(ハードウェア)機能を構築することで、データセンターの設計からトレーニングフレームワークに至るまで、スタックのあらゆる層を制御できるようになります」とMetaのインフラストラクチャ担当副社長Alexis Bjorlin氏はTechCrunchに語った。大規模な AI 研究。」

過去 10 年ほどにわたり、Meta はトップのデータ サイエンティストの採用と新しい種類の AI の構築に数十億ドルを費やしてきました。その AI には、現在自社のアプリやサービス全体で使用されている検出エンジン、モデレーション フィルター、広告レコメンダーを強化する AI が含まれています。 しかし同社は、特に生成AIの分野で、より野心的なAI研究イノベーションの多くを製品化することに苦戦してきた。

2022 年まで、Meta は主に、CPU (この種のタスクでは GPU よりも効率が低い傾向にある) と、AI アルゴリズムを高速化するために設計されたカスタム チップの組み合わせを使用して AI ワークロードを実行していました。 Meta は 2022 年に予定されていたカスタム チップの大規模展開を中止し、代わりに数十億ドル相当の Nvidia GPU を発注しましたが、そのためにはデータ センターのいくつかの大規模な再設計が必要でした。

状況を好転させるために、Meta は、AI モデルのトレーニングと実行の両方が可能な、より野心的な自社チップの開発を開始する計画を立てました。2025 年に発売予定です。 そしてそれが今日のプレゼンテーションのメイントピックでした。

Meta はこの新しいチップを Meta Training and Inference Accelerator (略して MTIA) と呼び、AI トレーニングと推論ワークロードを高速化するためのチップの「ファミリー」の一部であると説明しています。 (「推論」とは、トレーニングされたモデルを実行することを指します。) MTIA は、1 つのボード上にさまざまな回路を組み合わせたチップの一種である ASIC で、1 つまたは複数のタスクを並行して実行するようにプログラムできます。

AI ワークロード向けにカスタム設計された AI チップ Meta。画像クレジット:メタ

「重要なワークロード全体でより良いレベルの効率とパフォーマンスを得るには、モデル、ソフトウェア スタック、システム ハードウェアと共同設計された、カスタマイズされたソリューションが必要でした」と Bjorlin 氏は続けました。 「これにより、さまざまなサービスにわたってユーザーのエクスペリエンスが向上します。」

カスタム AI チップは、大手テクノロジー企業の間でますます有名になりつつあります。 Google は、PaLM-2 や Imagen などの大規模な生成 AI システムをトレーニングするために、プロセッサである TPU (「テンソル プロセッシング ユニット」の略) を作成しました。 Amazon は、トレーニング (Trainium) と推論 (Inferentia) の両方のために独自のチップを AWS の顧客に提供しています。 そして、MicrosoftはAMDと協力してAthenaと呼ばれる自社AIチップの開発を進めていると伝えられている。

Meta は、2020 年に 7 ナノメートルのプロセスに基づいて MTIA の第 1 世代である MTIA v1 を作成したと述べています。 内部メモリの 128 MB を超えて最大 128 GB まで拡張でき、メタが設計したベンチマーク テストでは (もちろん、これは割り引いて考える必要がありますが)、メタは MTIA が「低複雑性」を処理したと主張しています。 」および「中複雑度」の AI モデルを GPU よりも効率的に作成できます。

メタ氏によると、チップのメモリとネットワーク領域ではまだ作業が残っており、AIモデルのサイズが大きくなるにつれてボトルネックとなり、ワークロードを複数のチップに分割する必要があるという。 (偶然ではありませんが、Meta は最近、英国のチップ ユニコーン Graphcore で AI ネットワーキング技術を構築するオスロに拠点を置くチームを買収しました。) そして今のところ、MTIA の焦点は、Meta のアプリ ファミリ全体にわたる「推奨ワークロード」のトレーニングではなく推論に厳密に置かれています。

しかし、Meta は、改良を続けている MTIA により、推奨ワークロードを実行する際のワットあたりのパフォーマンスの点で会社の効率が「大幅に」向上し、その結果、Meta は (表面上は) 「より強化された」「最先端の」実行が可能になると強調しました。 AI ワークロード。

おそらくいつか、Meta は AI ワークロードの大部分を MTIA の銀行に委譲するでしょう。 しかし今のところ、ソーシャル ネットワークは研究に特化したスーパーコンピューターである Research SuperCluster (RSC) の GPU に依存しています。

2022 年 1 月に初めて発表された RSC は、ペンギン コンピューティング、Nvidia、ピュア ストレージと提携して組み立てられ、第 2 フェーズの構築を完了しました。 Meta によれば、現在、16,000 個の Nvidia A100 GPU を搭載した合計 2,000 台の Nvidia DGX A100 システムが含まれています。

では、なぜ社内にスーパーコンピューターを構築するのでしょうか? そうですね、まず、仲間からの圧力があります。 数年前、MicrosoftはOpenAIと提携して構築したAIスーパーコンピュータに関して大きな計画を立て、さらに最近ではNvidiaと提携してAzureクラウド上に新しいAIスーパーコンピュータを構築すると発表した。 Google は他の場所で、26,000 個の Nvidia H100 GPU を搭載した、AI に特化した自社のスーパーコンピューターを宣伝しており、Meta のスーパーコンピューターよりも優位に立っています。

メタ社のAI研究用スーパーコンピューター。画像クレジット:メタ

しかし、Meta 氏は、RSC によって、ジョーンズ夫妻の動向に追いつくだけでなく、研究者が Meta の実稼働システムの実世界の例を使用してモデルをトレーニングできるという利点も得られると述べています。 これは、オープンソースと一般公開されているデータセットのみを活用していた同社の以前の AI インフラストラクチャとは異なります。

「RSC AI スーパーコンピューターは、生成 AI を含むいくつかの領域で AI 研究の限界を押し上げるために使用されています」と Meta の広報担当者は述べました。 「これはまさに AI 研究の生産性に関するものです。私たちは、AI 研究者がモデルを開発し、AI を進歩させるためのトレーニング プラットフォームを提供できるようにするための最先端のインフラストラクチャを提供したいと考えました。」

RSC はピーク時に 5 エクサフロップス近くの計算能力に達することができ、これにより RSC は世界最速の部類に入ると同社は主張しています。 (印象を悪くしないように、一部の専門家はエクサフロップスのパフォーマンス指標を割り引いて考えており、RSC は世界最速のスーパーコンピューターの多くよりもはるかに優れていることを指摘しておく価値があります。)

Meta は、LLaMA をトレーニングするために RSC を使用したと述べています。LLaMA は、「Large Language Model Meta AI」のひどい頭字語です。この大規模言語モデルは、同社が今年初めに「ゲートリリース」として研究者に共有したものでした(その後、さまざまな文書に漏洩しました)。インターネットコミュニティ)。 Meta 氏によると、最大の LLaMA モデルは 2,048 個の A100 GPU でトレーニングされ、21 日かかりました。

「独自のスーパーコンピューティング機能を構築することで、データセンターの設計からトレーニングフレームワークに至るまで、スタックのあらゆる層を制御できるようになります」と広報担当者は付け加えた。 「RSC は、Meta の AI 研究者が、何兆もの例から学習できる新しいより優れた AI モデルを構築すること、数百の異なる言語にまたがって作業すること、テキスト、画像、ビデオをシームレスに分析すること、新しい拡張現実ツールを開発することなどを支援します。」

MTIA に加えて、Meta は特定のタイプのコンピューティング ワークロードを処理する別のチップを開発中であることを、同社が本日のイベントで明らかにした。 Meta Scalable Video Processor (MSVP) と呼ばれるこのチップは、ビデオ オン デマンドとライブ ストリーミングの処理ニーズに合わせて設計された、Meta の最初の自社開発 ASIC ソリューションです。

読者の記憶によれば、Meta は何年も前にカスタム サーバー側ビデオ チップの構想を開始し、2019 年にビデオのトランスコーディングと推論作業用の ASIC を発表しました。これはそれらの努力の成果であり、市場での競争上の優位性を新たに推し進めたものです。特にライブビデオの領域。

「Facebookだけで、人々はアプリの使用時間の50%を動画の視聴に費やしている」とMetaテクニカルリードマネージャーのHarikrishna Reddy氏とYunqing Chen氏は今朝公開した共著のブログ投稿で述べた。 「世界中のさまざまなデバイス (モバイル デバイス、ラップトップ、テレビなど) にサービスを提供するために、たとえば Facebook や Instagram にアップロードされたビデオは、異なるエンコード形式、解像度、品質で複数のビットストリームにトランスコードされます… MSVPはプログラム可能でスケーラブルであり、VOD に必要な高品質のトランスコーディングと、ライブ ストリーミングに必要な低遅延と高速処理時間の両方を効率的にサポートするように構成できます。」

Meta のカスタム チップは、ストリーミングやトランスコーディングなどのビデオ ワークロードを高速化するように設計されています。画像クレジット:メタ

Meta によれば、最終的には「安定して成熟した」ビデオ処理ワークロードの大部分を MSVP にオフロードし、特定のカスタマイズと「大幅に」高い品質を必要とするワークロードにのみソフトウェア ビデオ エンコーディングを使用する計画であると述べています。 メタ氏によると、スマートノイズ除去や画像強調などの前処理方法だけでなく、アーティファクト除去や超解像度などの後処理方法を使用して、MSVP でビデオ品質を向上させる取り組みが続けられています。

「将来的には、MSVP により、短編ビデオを含むメタの最も重要なユースケースとニーズをさらにサポートできるようになり、生成 AI、AR/VR、その他のメタバース コンテンツの効率的な配信が可能になります」とレディ氏とチェン氏は述べました。

今日のハードウェア発表に共通点があるとすれば、それは Meta が AI、特に生成 AI に関するペースを必死に上げようとしているということです。

以前にも同様のことが電報で送られてきました。 2月、最高経営責任者(CEO)のマーク・ザッカーバーグ氏(伝えられるところによると、メタ社のAI向け計算能力の向上を最優先課題としている)は、同社の研究開発を「ターボチャージ」するための新しいトップレベルの生成AIチームを発表した。 CTOのアンドリュー・ボズワース氏も同様に、最近、彼とザッカーバーグ氏が最も多くの時間を費やした分野は生成AIであると語った。 そして主任科学者のヤン・ルカン氏は、メタ社は仮想現実でアイテムを作成するための生成AIツールを導入する計画だと述べた。

ザッカーバーグ氏は4月のMetaの第1四半期決算会見で、「WhatsAppやMessengerでのチャットエクスペリエンス、FacebookやInstagramへの投稿や広告のビジュアル作成ツール、そして徐々にビデオやマルチモーダルエクスペリエンスも検討している」と述べた。 「これらのツールは、一般人からクリエイター、企業に至るまで、あらゆる人にとって価値あるものになると期待しています。たとえば、その経験をしっかりと確立できれば、ビジネス メッセージングやカスタマー サポート用の AI エージェントに多くの関心が集まると期待しています。これはメタバースでの作業にも拡張され、人々はアバター、オブジェクト、世界、そしてそれらすべてを結び付けるコードをより簡単に作成できるようになります。」

部分的には、Meta が生成 AI の (潜在的に大規模な) 市場を獲得するのに十分な速さで動いていないのではないかと懸念する投資家からの圧力が高まっていると感じていたためです。 Bard、Bing Chat、ChatGPT などのチャットボットに対する答えはまだありません。 また、爆発的な成長を遂げているもう一つの重要な分野である画像生成に関しても大きな進歩は見られない。

予測が正しければ、生成 AI ソフトウェアの対応可能な市場は合計 1,500 億ドルになる可能性があります。 ゴールドマン・サックスはGDPを7%押し上げると予測している。

そのほんの一部でも、拡張現実ヘッドセット、会議ソフトウェア、Horizo​​n Worlds のような VR プレイグラウンドなどの「メタバース」テクノロジーへの投資でメタが失った数十億ドルを帳消しにすることができます。 Metaの拡張現実技術を担当する部門であるReality Labsは、前四半期に40億ドルの純損失を報告しており、同社は第1四半期の会見で「2023年には営業損失が前年比で増加する」と予想していると述べた。

" 画像クレジット: 画像クレジット: 画像クレジット: